(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111668986.6
(22)申请日 2021.12.3 0
(71)申请人 中和农信项目管理有限公司
地址 100000 北京市怀柔区开 放路113号南
三层302室
(72)发明人 吴杨 向彪 赵占胜
(74)专利代理 机构 深圳中一联合知识产权代理
有限公司 4 4414
代理人 张良
(51)Int.Cl.
G06N 20/00(2019.01)
G06Q 10/04(2012.01)
G06Q 40/02(2012.01)
(54)发明名称
模型在线 更新方法、 装置、 设备、 存储介质和
计算机产品
(57)摘要
本申请公开了一种模型在线更新方法、 装
置、 设备、 存储介质和计算机产品, 属于计算机技
术领域。 包括: 生成与n个特征集一一对应的n个
掩码矩阵; 获得第一预测结果集和第二预测结果
集, 根据第一预测结果集和第二预测结果集之间
的差异, 确定一个掩码矩阵对应的一个特征集的
重要度; 根据该重要度从k个特征中确定至少一
个假性特征; 生成至少一个假性特征对应的目标
掩码矩阵; 根据目标掩码矩阵和多个目标样本对
目标模型进行训练, 以实现目标模型的在线更
新。 本申请可准确快速消除目标模 型的过拟合现
象, 从而提高目标模型的预测准确率, 且消除目
标模型的过拟合现象 的过程在 线上即可实现, 不
需进行反复上下线以及重新训练, 从而可简化流
程, 节省时间。
权利要求书2页 说明书18页 附图3页
CN 114429220 A
2022.05.03
CN 114429220 A
1.一种模型在线更新方法, 其特 征在于, 所述方法包括:
若线上使用的目标模型出现过拟合现象, 则生成与n个特征集一一对应的n个掩码矩
阵, 所述n个掩码矩阵中的每个掩码矩阵用于屏蔽对应的一个特征集, 所述n个特征集中的
每个特征集包括至少一个特征, 所述至少一个特征属于所述 目标模型需输入的k个特征中
的一部分特 征, 所述n和所述k均为大于或等于2的整数;
将预设用户数据集输入所述目标模型, 获得第一预测结果 集;
对于所述n个掩码矩阵中的每一个掩码矩阵, 将所述一个掩码矩阵和所述预设用户数
据集输入所述 目标模型, 获得第二预测结果集, 根据所述第一预测结果集和所述第二预测
结果集之间的差异, 确定所述一个掩码矩阵对应的一个特征集的重要度, 所述重要度与所
述差异呈正相关 关系;
根据所述n个特征集中每个特征集的重要度, 从所述k个特征中确定至少一个假性特
征, 所述假性特征为所述过拟合现象的成因;
生成所述至少一个假性特征对应的目标掩码矩阵, 所述目标掩码矩阵用于屏蔽所述至
少一个假 性特征;
根据所述目标掩码矩阵和多个目标样本对所述目标模型进行训练, 以实现所述目标模
型的在线更新, 所述多个目标样本中每 个目标样本中的输入数据包括所述 k个特征的数据。
2.如权利要求1所述的方法, 其特征在于, 所述若线上使用的目标模型出现过拟合现
象, 则生成与n个特 征集一一对应的n个掩码矩阵之前, 还 包括:
获取第一历史用户数据集和所述第一历史用户数据集的真实结果 集;
将所述第一历史用户数据集输入所述目标模型, 获得所述第 一历史用户数据集的预测
结果集;
根据所述第 一历史用户数据集的真实结果集和预测结果集, 获取所述目标模型的评价
指标值作为第一评价指标值;
根据所述第一评价指标值确定所述目标模型 是否出现过拟合现象。
3.如权利要求1所述的方法, 其特征在于, 所述根据所述n个特征集中每个特征集的重
要度, 从所述 k个特征中确定 至少一个假 性特征, 包括:
根据所述n个特征集中每个特征集的重要度, 按照重要度由高到低的顺序, 对所述n个
特征集进 行排序, 将所述n个特征集中排序在前的m个特征集中的所有 特征均确定为假性特
征, 所述m为 正整数; 或者,
将所述n个特征集中重要度 大于或等于重要度阈值的特征集中的所有特征均确定为假
性特征。
4.如权利要求1所述的方法, 其特征在于, 所述根据所述n个特征集中每个特征集的重
要度, 从所述 k个特征中确定 至少一个假 性特征, 包括:
根据所述n个特征集中每个特征集的重要度, 按照重要度由高到低的顺序, 对所述n个
特征集进行排序, 将所述n个特征集中排序在前 的m个特征集均确定为疑似假性特征集, 所
述m为正整数; 或者, 将所述n个特征集中重要度大于或等于重要度阈值的特征集均确定为
疑似假性特征集;
获取第二历史用户数据集和所述第二历史用户数据集的真实结果 集;
对确定出的所有疑似假 性特征集中的每一个疑似假 性特征集均执 行以下操作:权 利 要 求 书 1/2 页
2
CN 114429220 A
2将所述一个疑似假性特征集对应的掩码矩阵和所述第二历史用户数据集输入所述目
标模型, 获得 所述第二历史用户数据集的预测结果 集;
根据所述第 二历史用户数据集的真实结果集和预测结果集, 获取所述目标模型的评价
指标值作为所述 一个疑似假 性特征集对应的第二评价指标值;
若根据所述一个疑似假性特征集对应的第二评价指标值确定所述目标模型的过拟合
现象有所改善, 则将所述 一个疑似假 性特征集中的所有特 征均确定为 假性特征。
5.如权利要求1所述的方法, 其特征在于, 所述根据 所述目标掩码矩阵和多个目标样本
对所述目标模型进行训练, 以实现所述目标模型的在线更新之后, 还 包括:
将所述目标掩码矩阵和需要进行预测的目标用户数据输入所述目标模型, 获得预测结
果, 所述目标用户数据包括所述 k个特征的数据。
6.如权利要求1 ‑5任一所述的方法, 其特征在于, 所述目标模型需输入的所述k个特征
包括年龄、 学历、 家庭 年收入、 支 付金额、 支 付次数中的至少两个, 所述目标模型输出的预测
结果为购买行为类型。
7.一种模型在线更新装置, 其特 征在于, 所述装置包括:
第一生成模块, 用于若线上使用的目标模型出现过拟合现 象, 则生成与n个特征集一一
对应的n个掩码矩阵, 所述n个掩码矩阵中的每个掩码矩阵用于屏蔽对应的一个特征集, 所
述n个特征集中的每个特征集包括至少一个特征, 所述至少一个特征属于所述目标模型需
输入的k个特 征中的一部分特 征, 所述n和所述k均为大于或等于2的整数;
第一获取模块, 用于将预设用户数据集输入所述目标模型, 获得第一预测结果 集;
第一确定模块, 用于对于所述n个掩码矩阵中的每一个掩码矩阵, 将所述一个掩码矩阵
和所述预设用户数据集输入所述 目标模型, 获得第二预测结果集, 根据所述第一预测结果
集和所述第二预测结果集之间的差异, 确定所述一个掩码矩阵对应的一个特征集的重要
度, 所述重要度与所述差异呈正相关 关系;
第二确定模块, 用于根据所述n个特征集中每个特征集的重要度, 从所述k个特征中确
定至少一个假 性特征, 所述假性特征为所述过拟合现象的成因;
第二生成模块, 用于生成所述至少一个假性特征对应的目标掩码矩阵, 所述目标掩码
矩阵用于屏蔽所述至少一个假 性特征;
更新模块, 根据所述目标掩码矩阵和多个目标样本对所述目标模型进行训练, 以实现
所述目标模型 的在线更新, 所述多个目标样本中每个目标样本中的输入数据包括所述k个
特征的数据。
8.一种计算机设备, 其特征在于, 所述计算机设备包括存储器、 处理器以及存储在所述
存储器中并可在所述处理器上运行的计算机程序, 所述计算机程序被所述处理器执行时实
现如权利要求1至 6任一项所述的方法。
9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程
序, 所述计算机程序被处 理器执行时实现如权利要求1至 6任一项所述的方法。
10.一种计算机程序产品, 其特征在于, 所述计算机程序产品包含有计算机指令, 当其
在计算机上运行时, 使得计算机执 行如权利要求1至 6任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114429220 A
3
专利 模型在线更新方法、装置、设备、存储介质和计算机产品
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:31:48上传分享