说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111308594.9 (22)申请日 2021.11.05 (71)申请人 中信百信银行股份有限公司 地址 100020 北京市朝阳区安定路5号院3 号楼8层 (72)发明人 吴雨霏 (74)专利代理 机构 北京植德律师事务所 1 1780 代理人 唐华东 (51)Int.Cl. G06N 3/02(2006.01) G06N 20/00(2019.01) G06K 9/62(2022.01) G06F 16/332(2019.01) (54)发明名称 机器学习模型的训练方法、 装置、 电子设备 和存储介质 (57)摘要 本公开提供一种机器学习模 型的训练方法、 装置、 电子设备和存储介质。 该方法包括: 利用第 一数据集进行机器学习训练, 得到第一模型; 利 用第二数据集的子集对第一模型进行更新, 得到 第二模型; 根据第二模型在第一数据集上的预测 结果, 从第二数据集的子集中筛选出目标数据; 将目标数据由第二数据集转移至第一数据集, 得 到更新后的第一数据集; 利用更新后的第一数据 集对第二模型进行更新, 得到目标模型。 该方法 能够实现同特征但是数据量数据分布不一致的 迁移训练。 权利要求书2页 说明书9页 附图4页 CN 114091645 A 2022.02.25 CN 114091645 A 1.一种机器学习模型的训练方法, 包括: 利用第一数据集进行机器学习训练, 得到第一模型, 其中, 所述第一数据集中的第一数 据具有相应的标注标签; 利用第二数据集的子集对所述第 一模型进行更新, 得到第 二模型, 其中, 所述第 二数据 集的子集中的第二数据具有通过 所述第一模型获得的预测标签; 根据所述第 二模型在所述第 一数据集上的预测结果, 从所述第 二数据集的子集中筛选 出目标数据; 将所述目标数据由所述第二数据集转移至所述第一数据集, 得到更新后的第一数据 集; 利用所述更新后的第一数据集对所述第二模型进行 更新, 得到目标模型。 2.根据权利要求1所述的方法, 其中, 所述方法还 包括: 将所述目标模型作为新的所述第 一模型, 重复执行从对所述第 一模型进行更新至得到 目标模型的处 理过程, 直至 达到预设的停止条件。 3.根据权利要求1所述的方法, 其中, 所述利用第 二数据集的子集对所述第 一模型进行 更新, 得到第二模型, 包括: 将所述第二数据集中的所述第 二数据输入所述第 一模型, 得到所述第 二数据的预测标 签以及相应的预测概 率; 基于所述第 二数据对应的所述预测概率, 对所述第 二数据集中的所述第 二数据进行筛 选, 得到所述第二数据集的子集; 利用所述第二数据集的子集对所述第一模型进行机器学习训练, 得到所述第二模型。 4.根据权利要求3所述的方法, 其中, 所述基于所述第二数据对应的所述预测概率, 对 所述第二数据集中的所述第二数据进行筛 选, 得到所述第二数据集的子集, 包括: 选取所述第 二数据集中预测概率大于第 一阈值的全体第 二数据, 以及在预测概率大于 第二阈值并且小于或者等于所述第一阈值的第二数据中进 行随机抽取, 以得到所述第二数 据集的子集, 其中, 所述第一阈值大于所述第二阈值。 5.根据权利要求1所述的方法, 其中, 所述根据所述第 二模型在所述第 一数据集上的预 测结果, 从所述第二数据集的子集中筛 选出目标 数据, 包括: 将所述第一数据集中的第一数据输入所述第二模型, 得到所述第一数据的预测标签; 根据所述第 一数据的预测标签和标注标签, 得到所述第 一数据集的预测标签对应的分 类指标; 基于所述分类指标对所述第一数据集的预测标签进行筛 选, 得到目标 预测标签; 将所述第二数据集的子集中与所述目标预测标签对应的第二数据确定为所述目标数 据。 6.根据权利要求5所述的方法, 其中, 所述基于所述分类指标包括精确率、 召回率和/或 精确率和召回率的调和平均数。 7.根据权利要求5所述的方法, 其中, 所述基于所述分类指标对所述第 一数据集的预测 标签进行筛 选, 得到目标 预测标签, 包括: 将所述第一数据集的预测标签对应的分类指标与 预设分类指标进行比较, 并且将分类 指标优于所述预设 分类指标的预测标签确定为所述目标 预测标签。权 利 要 求 书 1/2 页 2 CN 114091645 A 28.一种机器学习模型的训练装置, 包括: 第一训练单元, 用于利用第一数据集进行机器学习训练, 得到第一模型, 其中, 所述第 一数据集中的第一数据具有相应的标注标签; 第二训练单元, 用于利用第 二数据集的子集对所述第 一模型进行更新, 得到第 二模型, 其中, 所述第二数据集的子集中的第二数据具有通过 所述第一模型获得的预测标签; 筛选单元, 用于根据所述第二模型在所述第一数据集上的预测结果, 从所述第二数据 集的子集中筛 选出目标 数据; 转移单元, 用于将所述目标数据由所述第二数据集转移至所述第一数据集, 得到更新 后的第一数据集; 第三训练单元, 用于利用所述更新后的第一数据集对所述第二模型进行更新, 得到目 标模型。 9.一种电子设备, 包括: 一个或多个处 理器; 存储装置, 其上存 储有一个或多个程序, 当所述一个或多个程序被所述一个或多个处理器执行时, 使得所述一个或多个处理器 实现如权利要求1 ‑7中任一项所述的方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其中, 所述计算机程序被一个 或多个处 理器执行时实现如权利要求1 ‑7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114091645 A 3
专利 机器学习模型的训练方法、装置、电子设备和存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 19:02:55
上传分享
举报
下载
原文档
(575.3 KB)
分享
友情链接
freebuf 金融反欺诈调查报告 2019.pdf
T-ZKJXX 00003—2021 基于三维空间信息技术的工程数字化交付技术规范.pdf
大同市建筑节能条例.pdf
T-TJKCSJ 001—2020 天津市全过程工程咨询服务导则.pdf
GB-T 28181-2022 公共安全视频监控联网系统信息传输、交换、控制技术要求.pdf
等保二级-安全技术-数据安全.doc
GB-T 34432-2017 售后服务基本术语.pdf
GB-T 26694-2011 家具绿色设计评价规范.pdf
GB-T 40665.2-2021 中医四诊操作规范 第2部分:闻诊.pdf
T-GDCKCJH 068—2022 离子风机静电消除器性能要求与检测方法.pdf
DB31-T 397-2021 医源性织物清洗消毒卫生要求 上海市.pdf
T-GCHA 1.1—2018 定制家居产品 人造板定制衣柜 第1部分:术语和定义.pdf
NY-T 2997-2016 草地分类.pdf
TB-T 3504-2018 列车接近预警地面设备.pdf
GB-T 14049-2008 额定电压10kV架空绝缘电缆.pdf
GB-T 15310.2-2009 国际贸易出口单证格式 第2部分:装箱单.pdf
奇安信2023年第二版-电子数据司法鉴定典型案例集.pdf
GB-T 33356-2016 新型智慧城市评价指标_.pdf
DB43-T 612-2021 医疗机构能耗定额 湖南省.pdf
T-CAMETA 001006.3—2022 工业网关 第3部分:面向数控系统的工业网关测评技术规范.pdf
1
/
3
16
评价文档
赞助2.5元 点击下载(575.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。