说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111354873.9 (22)申请日 2021.11.16 (71)申请人 中国银行保险信息技 术管理有限公 司 地址 100043 北京市石景山区实兴大街3 0 号1号楼 (72)发明人 高志扬  (74)专利代理 机构 北京中强智尚知识产权代理 有限公司 1 1448 代理人 刘敏 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/22(2019.01) G06F 16/25(2019.01) G06N 20/00(2019.01) (54)发明名称 基于机器学习算法的异构数据映射方法、 装 置及设备 (57)摘要 本申请公开了一种基于机器学习算法的异 构数据映射方法、 装置及设备, 涉及计算机技术 领域, 可解决异构数据映射效率低且准确性不高 的技术问题。 包括: 接收异构数据映射请求, 异构 数据映射请求中携带有原数据表结构、 原数据表 结构的随机采样数据, 以及 待映射的目标数据表 结构; 根据原数据表结构 对随机采样数据进行特 征处理, 得到原数据特征, 特征处理包括数据清 洗、 数据筛选、 数据残差填补和特征工程中的至 少一种; 将原数据表结构、 原数据特征 以及目标 数据表结构输入预训练完成的异构数据映射模 型, 获取预测映射结果; 根据预测映射结果确定 随机采样数据由原数据表结构 映射至目标数据 表结构后的目标数据内容。 本申请适用于对异构 数据的自动化映射。 权利要求书2页 说明书9页 附图4页 CN 114185879 A 2022.03.15 CN 114185879 A 1.一种基于 机器学习算法的异构数据映射方法, 其特 征在于, 包括: 接收异构数据映射请求, 所述异构数据映射请求中携带有原数据表结构、 所述原数据 表结构的随机采样数据, 以及待映射的目标 数据表结构; 根据所述原数据表结构对所述随机采样数据进行特征处理, 得到原数据特征, 所述特 征处理包括数据清洗、 数据筛 选、 数据残差填补和特 征工程中的至少一种; 将所述原数据表结构、 所述原数据 特征以及所述目标数据表结构输入预训练完成的异 构数据映射模型, 获取 预测映射结果; 根据所述预测映射结果确定所述随机采样数据由所述原数据表结构映射至所述目标 数据表结构后的目标 数据内容。 2.根据权利要求1所述的方法, 其特征在于, 根据 所述原数据表结构对所述随机采样数 据进行特征处理, 得到原数据特 征, 包括: 若根据所述原数据表结构判定所述随机采样数据为结构化或非结构化长文本数据, 则 获取与所述原数据表结构匹配的数据转 化格式以及对应的特 征向量空间维度; 依据所述数据转化格式将所述随机采样数据转化为与所述特征向量空间维度匹配的 向量特征矩阵。 3.根据权利要求1所述的方法, 其特征在于, 所述异构数据映射模型包括用于表匹配的 第一异构数据映射模型和用于 字段匹配的第二异构数据映射模型; 所述在将所述原数据表结构、 所述原数据 特征以及所述目标数据表结构输入预训练完 成的异构数据映射模型, 获取 预测映射结果之前, 还 包括: 基于历史异构数据映射结果构建训练集, 并利用所述训练集分别训练所述第 一异构数 据映射模型和所述第二异构数据映射模型, 以使 所述第一异构数据映射模 型和所述第二异 构数据映射模型满足预设训练标准, 判定预训练完成。 4.根据权利要求3所述的方法, 其特征在于, 所述将所述原数据表结构、 所述原数据特 征以及所述 目标数据表结构输入预训练完成的异构数据映射模型, 获取预测映射结果, 包 括: 将所述原数据表结构、 所述原数据 特征以及所述目标数据表结构输入预训练完成的第 一异构数据映射模型, 获取关于目标表的第一预测映射结果; 将所述原数据表结构、 所述原数据 特征以及所述目标数据表结构输入所述预训练完成 的第二异构数据映射模型, 获取 所述目标表内目标字段的第二预测映射结果。 5.根据权利要求4所述的方法, 其特征在于, 所述根据所述预测映射结果确定所述随机 采样数据由所述原数据表结构映射至所述目标 数据表结构后的目标 数据内容, 包括: 按照置信度由高到低的顺序在所述第一预测映射结果中筛选出预设数量个与所述目 标数据表结构匹配的预测映射表; 按照置信度由高到低的顺序在所述第二预测映射结果中筛选出预设数量个预测映射 字段; 输出所述预测映射表下的所述预测映射字段, 以便人工根据所述预测映射表下的所述 预测映射字段确定所述目标 数据表结构下的目标 数据内容。 6.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 根据所述原数据表结构下的所述随机采样数据以及所述目标数据表结构下的所述目权 利 要 求 书 1/2 页 2 CN 114185879 A 2标数据内容, 生成异构数据映射表, 以便基于所述异构数据映射表筛选与所述原数据表结 构、 所述随机采样数据以及所述目标 数据表结构匹配的目标 数据内容。 7.根据权利要求3所述的方法, 其特 征在于, 所述方法还 包括: 根据所述原数据表结构下的所述随机采样数据以及所述目标数据表结构下的所述目 标数据内容, 更新所述训练集, 以便依据更新后的训练集迭代训练所述第一异构数据映射 模型和所述第二异构数据映射模型。 8.一种基于 机器学习算法的异构数据映射装置, 其特 征在于, 包括: 接收模块, 用于接收异构数据映射请求, 所述异构数据映射请求中携带有原数据表结 构、 所述原数据表结构的随机采样数据, 以及待映射的目标 数据表结构; 处理模块, 用于根据所述原数据表结构对所述随机采样数据进行特征处理, 得到原数 据特征, 所述特 征处理包括数据清洗、 数据筛 选、 数据残差填补和特 征工程中的至少一种; 输入模块, 用于将所述原数据表结构、 所述原数据特征以及所述目标数据表结构输入 预训练完成的异构数据映射模型, 获取 预测映射结果; 确定模块, 用于根据 所述预测映射结果确定所述随机采样数据由所述原数据表结构映 射至所述目标 数据表结构后的目标 数据内容。 9.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器执行时实现 权利要求1至7中任一项所述的基于 机器学习算法的异构数据映射方法。 10.一种计算机设备, 包括存储介质、 处理器及存储在存储介质上并可在处理器上运行 的计算机程序, 其特征在于, 所述处理器执行所述程序时实现权利要求1至7中任一项所述 的基于机器学习算法的异构数据映射方法。权 利 要 求 书 2/2 页 3 CN 114185879 A 3

.PDF文档 专利 基于机器学习算法的异构数据映射方法、装置及设备

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于机器学习算法的异构数据映射方法、装置及设备 第 1 页 专利 基于机器学习算法的异构数据映射方法、装置及设备 第 2 页 专利 基于机器学习算法的异构数据映射方法、装置及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:02:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。