专利 分类模型构建方法及装置、存储介质及电子设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111667583.X (22)申请日 2021.12.3 0 (71)申请人国网浙江省电力有限公司信息通信分公司地址 310063 浙江省杭州市黄龙路8号641 室申请人浙江捷瑞电力科技有限公司 (72)发明人王红凯　冯珺　潘司晨　江樱　琚小明　黄海潮　张烨华　彭梁英　赵帅　冯泳铭　陈可　谢裕清　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 代理人秦晓君 (51)Int.Cl. G06F 30/27(2020.01)G06K 9/62(2022.01) G06N 20/00(2019.01) G06F 111/08(2020.01) (54)发明名称分类模型构建方法及装置、存储介质及电子设备 (57)摘要本发明提供了一种分类模型构建方法及装置、存储介质及电子设备，该方法包括：确定预设样本集合和每个预设特征维度对应的特征权重，基于预设的集成学习算法进行预测模型的迭代训练，在当前迭代周期中，确定该迭代周期对应的初始模型，和该迭代周期对应的各个训练特征维度所对应的训练样本集合。通过该训练样本集合对该初始模型进行训练，得到该迭代周期对应的预测模型，并更新当前训练特征维度对应的特征权重，以调整下个迭代周期对应的各个训练特征维度。当结束迭代训练过程后，对训练得到的各个预测模型进行组合，得到分类模型。应用本发明的方法，可对用于训练的特征进行调整，采用对分类影响较大的特征进行训练，可提高模型的分类准确度。权利要求书3页说明书18页附图5页 CN 114330135 A 2022.04.12 CN 114330135 A 1.一种分类模型构建方法，其特征在于，包括：确定预设样本集合和每个预设特征维度对应的特征权重，所述预设样本集合包括每个预设类别对应的多个预设样本，每个所述预设样本中包括每个所述预设特征维度对应的特征数据；基于所述预设样本集合和每个所述预设特征维度对应的特征权重，获得至少一个预测模型，对各个所述预测模型进行组合，得到分类模型；所述基于所述预设样本集合和每个所述预设特征维度对应的特征权重，获得至少一个预测模型，包括：基于预设的集成学习算法进行预测模型的迭代训练，在当前迭代周期中，确定所述当前迭代周期对应的初始模型和训练样本集合，所述训练样本集合包括每个所述预设样本对应的训练样本，每个所述训练样本中包括其对应的预设样本中，所述当前迭代周期对应的每个训练特征维度所对应的特征数据；基于所述训练样本集合，对所述初始模型进行训练，得到所述当前迭代周期对应的预测模型；判断所述当前迭代周期是否符合预设结束条件，若所述当前迭代周期不符合所述预设结束条件，则基于所述初始模型在训练过程中的分类结果和每个所述训练特征维度对应的特征权重，确定所述当前迭代周期对应的各个调整特征维度和每个所述调整特征维度对应的特征权重，进入下一个迭代周期；所述调整特征维度为各个所述训练特征维度中的特征维度；若所述当前迭代周期符合所述预设结束条件，则结束迭代训练过程；其中，各个所述预设特征维度为首个迭代周期对应的各个训练特征维度，每个迭代周期对应的各个调整特征维度，为该迭代周期的下一个迭代周期对应的各个训练特征维度。 2.根据权利要求1所述的方法，其特征在于，所述确定预设样本集合，包括：确定每个所述预设类别对应的多个初始样本；将每个所述预设类别对应的每个初始样本作为该预设类别对应的预设样本；在各个所述预设类别中，确定至少一个目标类别；对于每个所述目标类别对应的每个初始样本，构建该初始样本对应的合成样本；将每个所述目标类别对应的每个初始样本所对应的合成样本作为该目标类别对应的预设样本，以组成所述预设样本集合。 3.根据权利要求1所述的方法，其特征在于，所述确定每个预设特征维度对应的特征权重，包括：对于每个所述预设特征维度，确定该预设特征维度对应的均值集合和标准差集合，所述均值集合包括每个所述预设类别对应的样本数据均值，每个所述样本数据均值为，其对应预设类别所对应的各个预设样本中，该预设特征维度对应的各个特征数据的均值；所述标准差集合包括每个所述预设类别对应的样本数据标准差，每个所述样本数据标准差为，其对应预设类别所对应的各个预设样本中，该预设特征维度对应的各个特征数据的标准差；基于每个所述预设特征维度对应的均值集合和标准差集合，确定每个所述预设特征维度对应的类间差异值；权　利　要　求　书 1/3 页 2 CN 114330135 A 2对于每个所述预设特征维度，确定该预设特征维度对应的第一差异比重，并将所述第一差异比重作为该预设特征维度对应的特征权重，所述第一差异比重为该预设特征维度对应的类间差异值与第一差异总和值的比值，所述第一差异总和值为各个所述预设特征维度对应的类间差异值的总和。 4.根据权利要求1所述的方法，其特征在于，所述对各个所述预测模型进行组合，得到分类模型，包括：对于每个迭代周期对应的预测模型，确定该预测模型对应的误差率，并基于所述误差率确定该预测模型对应的融合比重；基于每个所述迭代周期对应的预测模型所对应的融合比重，对各个所述迭代周期对应的预测模型进行加权组合，将加权组合得到的模型作为所述分类模型。 5.根据权利要求1所述的方法，其特征在于，所述基于所述训练样本集合，对所述初始模型进行训练，包括：确定所述当前迭代周期对应的各个样本权重，所述各个样本权重与所述预设样本集合中的各个预设样本一一对应；确定所述训练样本集合中每个训练样本对应的训练权重，每个所述训练样本对应的训练权重为该训练样本对应的预设样本所对应的样本权重；依据所述训练样本集合中的每个训练样本及其对应的训练权重，对所述初始模型进行训练，将完成训练的初始模型作为所述当前迭代周期对应的预测模型。 6.根据权利要求1所述的方法，其特征在于，所述基于所述初始模型在训练过程中的分类结果和每个所述训练特征维度对应的特征权重，确定所述当前迭代周期对应的各个调整特征维度和每个所述调整特征维度对应的特征权重，包括：基于所述分类结果，在所述训练样本集合中确定多个错误分类样本；确定错误分类比重，所述错误分类比重为所述多个错误分类样本的样本数量与所述训练样本集合的样本数量的比值；确定所述当前迭代周期对应的每个训练特征维度所对应的错误分类权重和更新特征值，每个所述更新特征值为，其对应的训练特征维度所对应的特征权重与目标乘积的和，所述目标乘积为其对应的训练特征维度所对应的错误分类权重与所述错误分类比重的乘积；确定所述当前迭代周期对应的每个训练特征维度所对应的更新权重，每个所述训练特征维度对应的更新权重为，该训练特征维度对应的更新特征值与更新总和值的比值，所述更新总和值为各个所述训练特征维度对应的更新特征值的总和；将每个所述训练特征维度对应的更新权重与预设权重进行比较，并将对应的更新权重大于所述预设权重的训练特征维度，确定为所述当前迭代周期对应的调整特征维度；将每个所述调整特征维度对应的更新权重确定为每个所述调整特征维度对应的特征权重。 7.根据权利要求6所述的方法，其特征在于，所述确定所述当前迭代周期对应的每个训练特征维度所对应的错误分类权重，包括：在所述多个错误分类样本中，确定每个所述预设类别对应的各个错误分类样本；对于所述当前迭代周期对应的每个训练特征维度，确定该训练特征维度对应的错误样本均值集合和错误样本标准差集合；所述错误样本均值集合包括每个所述预设类别对应的权　利　要　求　书 2/3 页 3 CN 114330135 A 3

专利 分类模型构建方法及装置、存储介质及电子设备

专利分类模型构建方法及装置、存储介质及电子设备