(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111667583.X
(22)申请日 2021.12.3 0
(71)申请人 国网浙江省电力有限公司信息通信
分公司
地址 310063 浙江省杭州市黄龙路8号641
室
申请人 浙江捷瑞电力科技有限公司
(72)发明人 王红凯 冯珺 潘司晨 江樱
琚小明 黄海潮 张烨华 彭梁英
赵帅 冯泳铭 陈可 谢裕清
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
代理人 秦晓君
(51)Int.Cl.
G06F 30/27(2020.01)G06K 9/62(2022.01)
G06N 20/00(2019.01)
G06F 111/08(2020.01)
(54)发明名称
分类模型构建方法及 装置、 存储介质及电子
设备
(57)摘要
本发明提供了一种分类模型构建方法及装
置、 存储介质及电子设备, 该方法包括: 确定 预设
样本集合和每个预设特征维度对应的特征权重,
基于预设的集成学习算法进行预测模型的迭代
训练, 在当前迭代周期中, 确定该迭代周 期对应
的初始模型, 和该迭代周期 对应的各个训练特征
维度所对应的训练样本集合。 通过该训练样本集
合对该初始模 型进行训练, 得到该迭代周期对应
的预测模型, 并更新当前训练特征 维度对应的特
征权重, 以调整下个迭代周期 对应的各个训练特
征维度。 当结束迭代训练过程后, 对训练得到的
各个预测模型进行组合, 得到分类模型。 应用本
发明的方法, 可对用于训练的特征进行调整, 采
用对分类影 响较大的特征进行训练, 可提高模型
的分类准确度。
权利要求书3页 说明书18页 附图5页
CN 114330135 A
2022.04.12
CN 114330135 A
1.一种分类模型构建方法, 其特 征在于, 包括:
确定预设样本集合和每个预设特征维度对应的特征权重, 所述预设样本集合包括每个
预设类别对应的多个预设样本, 每个所述预设样本中包括每个所述预设特征维度对应的特
征数据;
基于所述预设样本集合和每个所述预设特征维度对应的特征权重, 获得至少一个预测
模型, 对各个所述预测模型进行组合, 得到分类模型;
所述基于所述预设样本集合和每个所述预设特征维度对应的特征权重, 获得至少一个
预测模型, 包括:
基于预设的集成学习算法进行预测模型的迭代训练, 在当前迭代周期中, 确定所述当
前迭代周期对应的初始模型和训练样本集合, 所述训练样本集合包括每个所述预设样本对
应的训练样本, 每个所述训练样本中包括其对应的预设样本中, 所述当前迭代周期对应的
每个训练特 征维度所对应的特 征数据;
基于所述训练样本集合, 对所述初始模型进行训练, 得到所述当前迭代周期对应的预
测模型;
判断所述当前迭代周期是否符合预设结束条件, 若所述当前迭代周期不符合所述预设
结束条件, 则基于所述初始模型在训练过程中的分类结果和每个所述训练特征维度对应的
特征权重, 确定所述当前迭代周期对应的各个调整特征维度和每个所述调整 特征维度对应
的特征权重, 进入下一个迭代周期; 所述调整特征维度为各个所述训练特征维度中的特征
维度;
若所述当前迭代周期符合所述预设结束条件, 则结束迭代训练过程;
其中, 各个所述预设特征维度为首个迭代周期对应的各个训练特征维度, 每个迭代周
期对应的各个调整特 征维度, 为该迭代周期的下一个迭代周期对应的各个训练特 征维度。
2.根据权利要求1所述的方法, 其特 征在于, 所述确定预设样本集 合, 包括:
确定每个所述预设类别对应的多个初始样本;
将每个所述预设类别对应的每 个初始样本作为该 预设类别对应的预设样本;
在各个所述预设类别中, 确定 至少一个目标类别;
对于每个所述目标类别对应的每 个初始样本, 构建该初始样本对应的合成样本;
将每个所述目标类别对应的每个初始样本所对应的合成样本作为该目标类别对应的
预设样本, 以组成所述预设样本集 合。
3.根据权利要求1所述的方法, 其特征在于, 所述确定每个预设特征维度对应的特征权
重, 包括:
对于每个所述预设特征维度, 确定该预设特征维度对应的均值集合和标准差集合, 所
述均值集合包括每个所述预设类别对应的样本数据均值, 每个所述样本数据均值为, 其对
应预设类别所对应的各个预设样本中, 该预设特征维度对应的各个特征数据的均值; 所述
标准差集合包括每个所述预设类别对应的样本数据标准差, 每个所述样本数据标准差为,
其对应预设类别所对应的各个预设样本中, 该预设特征维度对应的各个特征数据 的标准
差;
基于每个所述预设特征维度对应的均值集合和标准差集合, 确定每个所述预设特征维
度对应的类间差异值;权 利 要 求 书 1/3 页
2
CN 114330135 A
2对于每个所述预设特征维度, 确定该预设特征维度对应的第一差异比重, 并将所述第
一差异比重作为该预设特征维度对应的特征权重, 所述第一差异比重为该预设特征维度对
应的类间差异值与第一差异总和值的比值, 所述第一差异总和值为各个所述预设特征维度
对应的类间差异值的总和。
4.根据权利要求1所述的方法, 其特征在于, 所述对各个所述预测模型进行组合, 得到
分类模型, 包括:
对于每个迭代周期对应的预测模型, 确定该预测模型对应的误差率, 并基于所述误差
率确定该 预测模型对应的融合比重;
基于每个所述迭代周期对应的预测模型所对应的融合比重, 对各个所述迭代周期对应
的预测模型进行加权组合, 将加权组合得到的模型作为所述分类模型。
5.根据权利要求1所述的方法, 其特征在于, 所述基于所述训练样本集合, 对所述初始
模型进行训练, 包括:
确定所述当前迭代周期对应的各个样本权重, 所述各个样本权重与 所述预设样本集合
中的各个预设样本一 一对应;
确定所述训练样本集合中每个训练样本对应的训练权重, 每个所述训练样本对应的训
练权重为该训练样本对应的预设样本所对应的样本 权重;
依据所述训练样本集合中的每个训练样本及其对应的训练权重, 对所述初始模型进行
训练, 将完成训练的初始模型作为所述当前迭代周期对应的预测模型。
6.根据权利要求1所述的方法, 其特征在于, 所述基于所述初始模型在训练过程中的分
类结果和每个所述训练特征维度对应的特征权重, 确定所述当前迭代周期对应的各个调整
特征维度和每 个所述调整特 征维度对应的特 征权重, 包括:
基于所述分类结果, 在所述训练样本集 合中确定多个错 误分类样本;
确定错误分类比重, 所述错误分类比重为所述多个错误分类样本的样本数量与所述训
练样本集 合的样本数量的比值;
确定所述当前迭代周期对应的每个训练特征维度所对应的错误分类权重和更新特征
值, 每个所述更新特征值为, 其对应的训练特征维度所对应的特征权重与目标乘积的和, 所
述目标乘积为 其对应的训练特 征维度所对应的错 误分类权 重与所述 错误分类比重的乘积;
确定所述当前迭代周期对应的每个训练特征维度 所对应的更新权重, 每个所述训练特
征维度对应的更新权重为, 该训练特征维度对应的更新特征值与更新总和值的比值, 所述
更新总和值 为各个所述训练特 征维度对应的更新特 征值的总和;
将每个所述训练特征维度对应的更新权重与预设权重进行比较, 并将对应的更新权重
大于所述预设权 重的训练特 征维度, 确定为所述当前迭代周期对应的调整特 征维度;
将每个所述调整特征维度对应的更新权重确定为每个所述调整特征维度对应的特征
权重。
7.根据权利要求6所述的方法, 其特征在于, 所述确定所述当前迭代周期对应的每个训
练特征维度所对应的错 误分类权 重, 包括:
在所述多个错 误分类样本中, 确定每 个所述预设类别对应的各个错 误分类样本;
对于所述当前迭代周期对应的每个训练特征维度, 确定该训练特征维度对应的错误样
本均值集合和错误样本标准差集合; 所述错误样本均值集合包括每个所述预设类别对应的权 利 要 求 书 2/3 页
3
CN 114330135 A
3
专利 分类模型构建方法及装置、存储介质及电子设备
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:31:12上传分享