说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111297663.0 (22)申请日 2021.11.03 (71)申请人 同盾科技有限公司 地址 311100 浙江省杭州市余杭区文一西 路998号未来科技城18幢207 (72)发明人 赵扬 周红伟 董纪伟  (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 代理人 苏培华 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) G06V 30/10(2022.01) G06V 30/19(2022.01) G06V 10/774(2022.01)G06V 10/764(2022.01) G06V 10/74(2022.01) G06V 10/70(2022.01) G06Q 40/02(2012.01) (54)发明名称 样本预测模型的训练方法、 装置、 电子设备 及存储介质 (57)摘要 本发明提供了一种样本预测模型的训练方 法、 装置、 电子设备及存储介质, 属于数据处理领 域, 其中, 可 以采用已知标签的第一样本训练第 一模型, 再采用第一模型对未知标签的第二样本 进行预测确定第二样本对应的第一预测概率, 并 根据预置分类阈值、 第一预测概率对第二样本进 行分类获得伪标签, 再基于第一样 本与伪标签的 第二样本训练样本预测模型, 其中, 预置分类阈 值可以通过将第二预测概率作为分类阈值对第 一样本进行分类, 并确定 符合第一分类条件的分 类阈值得到, 第二预测概率为第一模 型对第一样 本的预测概率, 由于第一样本为已知标签, 因此 可以通过第一样本对第一模型的分类性能进行 检验, 保证了第一模型对第二样 本进行分类获得 伪标签的质量。 权利要求书2页 说明书18页 附图8页 CN 114154556 A 2022.03.08 CN 114154556 A 1.一种样本预测模型的训练方法, 其特 征在于, 所述方法包括: 获取已知标签的第一样本, 以及未知标签的第二样本; 基于所述第一样本进行模型训练, 获得第一模型; 采用所述第一模型对所述第二样本进行预测, 获得所述第二样本对应的第一预测概 率; 采用第一模型对所述第 一样本进行预测确定第 二预测概率, 并将不同所述第 二预测概 率作为分类阈值对所述第一样本进行分类, 将对所述第一样本的分类符合第一分类条件的 所述分类阈值作为预置分类阈值; 根据所述预置分类阈值、 所述第一预测概率对所述第二样本进行分类, 确定所述第二 样本对应的伪标签; 采用已知标签的所述第一样本, 以及伪标签的所述第二样本进行模型训练, 获得样本 预测模型。 2.根据权利要求1所述的方法, 其特征在于, 将所述采用第 一模型对所述第 一样本进行 预测确定第二预测概率, 并将不同所述第二预测概率作为分类阈值对所述第一样本进 行分 类, 将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置 分类阈值的步骤 替换为: 将不同所述第一预测概率作为分类阈值或将预设概率作为所述分类阈值对所述第二 样本进行分类, 并将对所述第二样本的分类符合第二分类条件的所述分类阈值作为预置分 类阈值; 所述根据所述预置分类阈值、 所述第一预测概率对所述第二样本进行分类, 确定所述 第二样本对应的伪标签之后, 还 包括: 确定目标标签对应的所述第一样本与所述目标标签对应的所述第二样本之间的第一 相似度标准差, 所述目标 标签为所述已知标签与所述伪标签间任一同类标签; 确定所述目标 标签对应的所述第一样本之间的第二相似度标准差; 在所述第一相似度标准差小于或等于所述第 二相似度标准差的情况下, 保留所述伪标 签。 3.根据权利要求1所述的方法, 其特征在于, 所述将不同所述第 二预测概率作为分类 阈 值对所述第一样本进 行分类, 将对所述第一样本的分类符合第一分类条件的所述分类阈值 作为预置分类阈值, 包括: 依次将每一所述第 二预测概率作为分类阈值, 将所述第 二预测概率大于或等于所述分 类阈值的第一样本确定为第一预测类样本, 将所述第二预测概率小于所述分类阈值的第一 样本确定为第二预测类样本; 确定每一所述分类阈值对应的所述第一预测类样本与所述第二预测类样本之间的类 间方差; 将所述类间方差的最大值对应的所述分类阈值作为预置分类阈值。 4.根据权利要求3所述的方法, 其特征在于, 所述第一样本包括第一已知类样本、 第二 已知类样本, 所述确定每一所述分类阈值对应的所述第一预测类样本与所述第二预测类样 本之间的类间方差, 包括: 确定所述第 一预测类样本在所述第 一已知类样本中的第 一占比, 与 所述第一预测类样权 利 要 求 书 1/2 页 2 CN 114154556 A 2本对应的第一平均概 率; 确定所述第 二预测类样本在所述第 二已知类样本中的第 二占比, 与 所述第二预测类样 本对应的第二平均概 率; 根据所述第一占比、 所述第 二占比、 所述第一平均概率与所述第二平均概率, 确定所述 第一预测类样本与所述第二预测类样本之间的类间方差 。 5.根据权利要求2所述的方法, 其特征在于, 所述确定目标标签对应的所述第 一样本与 所述目标 标签对应的所述第二样本之间的第一相似度标准差, 包括: 根据所述伪标签与 所述已知标签, 确定所述目标标签对应的每一所述第 一样本与 所述 目标标签对应的每一所述第二样本之间的第一相似度; 确定相同所述第 二样本对应所述第 一相似度之间的标准差, 获得所述第 一相似度 标准 差。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述伪标签与所述已知标签, 确 定所述目标标签对应的每一所述第一样本与所述目标标签对应的每一所述第二样本之间 的第一相似度, 包括: 根据所述伪标签与 所述已知标签, 计算所述目标标签对应的每一所述第 一样本与 所述 目标标签对应的每一所述第二样本之间的标准欧氏距离 。 7.根据权利要求2所述的方法, 其特征在于, 所述确定所述目标标签对应的所述第 一样 本之间的第二相似度标准差, 包括: 确定所述目标 标签对应的所述第一样本 两两之间的第二相似度; 确定所述第二相似度之间的标准差, 获得 所述第二相似度标准差 。 8.一种样本预测模型的训练装置, 其特 征在于, 所述装置包括: 样本获取模块, 用于获取已知标签的第一样本, 以及未知标签的第二样本; 模型训练模块, 用于基于所述第一样本进行模型训练, 获得第一模型; 概率预测模块, 用于采用所述第一模型对所述第二样本进行预测, 获得所述第二样本 对应的第一预测概 率; 阈值确定模块, 用于采用第一模型对所述第一样本进行预测确定第二预测概率, 并将 不同所述第二预测概率作为分类阈值对所述第一样本进行分类, 将对所述第一样本的分类 符合第一分类条件的所述分类阈值作为预置分类阈值; 样本标记模块, 用于根据所述预置分类阈值、 所述第一预测概率对所述第二样本进行 分类, 确定所述第二样本对应的伪标签; 所述模型训练模块, 还用于采用已知标签的所述第一样本, 以及伪标签的所述第二样 本进行模型训练, 获得样本预测模型。 9.一种电子设备, 所述电子设备包括: 接口, 总线, 存储器与处理器, 所述接口、 存储器 与处理器通过所述总线相连接, 所述存储器用于存储可执行程序, 所述处理器被配置为运 行所述可执行程序实现如权利要求1~7任一所述的样本预测模型的训练方法的步骤。 10.一种计算机存储介质, 所述计算机可读存储介质上存储可执行程序, 所述可执行程 序被处理器运行实现如权利要求1~7任一所述的样本预测模型的训练方法的步骤。权 利 要 求 书 2/2 页 3 CN 114154556 A 3

.PDF文档 专利 样本预测模型的训练方法、装置、电子设备及存储介质

文档预览
中文文档 29 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 样本预测模型的训练方法、装置、电子设备及存储介质 第 1 页 专利 样本预测模型的训练方法、装置、电子设备及存储介质 第 2 页 专利 样本预测模型的训练方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:02:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。