说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111354873.9 (22)申请日 2021.11.16 (71)申请人 中国银行保险信息技 术管理有限公 司 地址 100043 北京市石景山区实兴大街3 0 号1号楼 (72)发明人 高志扬 (74)专利代理 机构 北京中强智尚知识产权代理 有限公司 1 1448 代理人 刘敏 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/22(2019.01) G06F 16/25(2019.01) G06N 20/00(2019.01) (54)发明名称 基于机器学习算法的异构数据映射方法、 装 置及设备 (57)摘要 本申请公开了一种基于机器学习算法的异 构数据映射方法、 装置及设备, 涉及计算机技术 领域, 可解决异构数据映射效率低且准确性不高 的技术问题。 包括: 接收异构数据映射请求, 异构 数据映射请求中携带有原数据表结构、 原数据表 结构的随机采样数据, 以及 待映射的目标数据表 结构; 根据原数据表结构 对随机采样数据进行特 征处理, 得到原数据特征, 特征处理包括数据清 洗、 数据筛选、 数据残差填补和特征工程中的至 少一种; 将原数据表结构、 原数据特征 以及目标 数据表结构输入预训练完成的异构数据映射模 型, 获取预测映射结果; 根据预测映射结果确定 随机采样数据由原数据表结构 映射至目标数据 表结构后的目标数据内容。 本申请适用于对异构 数据的自动化映射。 权利要求书2页 说明书9页 附图4页 CN 114185879 A 2022.03.15 CN 114185879 A 1.一种基于 机器学习算法的异构数据映射方法, 其特 征在于, 包括: 接收异构数据映射请求, 所述异构数据映射请求中携带有原数据表结构、 所述原数据 表结构的随机采样数据, 以及待映射的目标 数据表结构; 根据所述原数据表结构对所述随机采样数据进行特征处理, 得到原数据特征, 所述特 征处理包括数据清洗、 数据筛 选、 数据残差填补和特 征工程中的至少一种; 将所述原数据表结构、 所述原数据 特征以及所述目标数据表结构输入预训练完成的异 构数据映射模型, 获取 预测映射结果; 根据所述预测映射结果确定所述随机采样数据由所述原数据表结构映射至所述目标 数据表结构后的目标 数据内容。 2.根据权利要求1所述的方法, 其特征在于, 根据 所述原数据表结构对所述随机采样数 据进行特征处理, 得到原数据特 征, 包括: 若根据所述原数据表结构判定所述随机采样数据为结构化或非结构化长文本数据, 则 获取与所述原数据表结构匹配的数据转 化格式以及对应的特 征向量空间维度; 依据所述数据转化格式将所述随机采样数据转化为与所述特征向量空间维度匹配的 向量特征矩阵。 3.根据权利要求1所述的方法, 其特征在于, 所述异构数据映射模型包括用于表匹配的 第一异构数据映射模型和用于 字段匹配的第二异构数据映射模型; 所述在将所述原数据表结构、 所述原数据 特征以及所述目标数据表结构输入预训练完 成的异构数据映射模型, 获取 预测映射结果之前, 还 包括: 基于历史异构数据映射结果构建训练集, 并利用所述训练集分别训练所述第 一异构数 据映射模型和所述第二异构数据映射模型, 以使 所述第一异构数据映射模 型和所述第二异 构数据映射模型满足预设训练标准, 判定预训练完成。 4.根据权利要求3所述的方法, 其特征在于, 所述将所述原数据表结构、 所述原数据特 征以及所述 目标数据表结构输入预训练完成的异构数据映射模型, 获取预测映射结果, 包 括: 将所述原数据表结构、 所述原数据 特征以及所述目标数据表结构输入预训练完成的第 一异构数据映射模型, 获取关于目标表的第一预测映射结果; 将所述原数据表结构、 所述原数据 特征以及所述目标数据表结构输入所述预训练完成 的第二异构数据映射模型, 获取 所述目标表内目标字段的第二预测映射结果。 5.根据权利要求4所述的方法, 其特征在于, 所述根据所述预测映射结果确定所述随机 采样数据由所述原数据表结构映射至所述目标 数据表结构后的目标 数据内容, 包括: 按照置信度由高到低的顺序在所述第一预测映射结果中筛选出预设数量个与所述目 标数据表结构匹配的预测映射表; 按照置信度由高到低的顺序在所述第二预测映射结果中筛选出预设数量个预测映射 字段; 输出所述预测映射表下的所述预测映射字段, 以便人工根据所述预测映射表下的所述 预测映射字段确定所述目标 数据表结构下的目标 数据内容。 6.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 根据所述原数据表结构下的所述随机采样数据以及所述目标数据表结构下的所述目权 利 要 求 书 1/2 页 2 CN 114185879 A 2标数据内容, 生成异构数据映射表, 以便基于所述异构数据映射表筛选与所述原数据表结 构、 所述随机采样数据以及所述目标 数据表结构匹配的目标 数据内容。 7.根据权利要求3所述的方法, 其特 征在于, 所述方法还 包括: 根据所述原数据表结构下的所述随机采样数据以及所述目标数据表结构下的所述目 标数据内容, 更新所述训练集, 以便依据更新后的训练集迭代训练所述第一异构数据映射 模型和所述第二异构数据映射模型。 8.一种基于 机器学习算法的异构数据映射装置, 其特 征在于, 包括: 接收模块, 用于接收异构数据映射请求, 所述异构数据映射请求中携带有原数据表结 构、 所述原数据表结构的随机采样数据, 以及待映射的目标 数据表结构; 处理模块, 用于根据所述原数据表结构对所述随机采样数据进行特征处理, 得到原数 据特征, 所述特 征处理包括数据清洗、 数据筛 选、 数据残差填补和特 征工程中的至少一种; 输入模块, 用于将所述原数据表结构、 所述原数据特征以及所述目标数据表结构输入 预训练完成的异构数据映射模型, 获取 预测映射结果; 确定模块, 用于根据 所述预测映射结果确定所述随机采样数据由所述原数据表结构映 射至所述目标 数据表结构后的目标 数据内容。 9.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器执行时实现 权利要求1至7中任一项所述的基于 机器学习算法的异构数据映射方法。 10.一种计算机设备, 包括存储介质、 处理器及存储在存储介质上并可在处理器上运行 的计算机程序, 其特征在于, 所述处理器执行所述程序时实现权利要求1至7中任一项所述 的基于机器学习算法的异构数据映射方法。权 利 要 求 书 2/2 页 3 CN 114185879 A 3
专利 基于机器学习算法的异构数据映射方法、装置及设备
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 19:02:06
上传分享
举报
下载
原文档
(713.7 KB)
分享
友情链接
数据安全事件管理办法.pdf
GB-T 23021-2022 信息化和工业化融合管理体系 生产设备管理能力成熟度评价.pdf
T-CESA 1120—2020 人工智能芯片 面向边缘侧的深度学习芯片测试指标与测试方法.pdf
GB-T 33561-2017 信息安全技术 安全漏洞分类.pdf
法律法规 最高人民法院、最高人民检察院关于办理非法利用信息网络、帮助信息网络犯罪活动等刑事案件适用法律若干问题的解释2019-10-21.pdf
《信息安全技术 基于信息流的关键信息基础设施边界确定方法》【2019.4.21】.pdf
T-CES 177—2022 磷酸铁锂电池储能舱早期安全预警系统技术规范.pdf
GB-T 7344-2015 交流伺服电动机通用技术条件.pdf
DB31-T 367-2022 黄浦江游览船及码头运营设施与服务质量要求 上海市.pdf
GB-T 29241-2012 信息安全技术 公钥基础设施 PKI互操作性评估准则.pdf
广西壮族自治区民用建筑节能条例.pdf
天空卫生 数据防泄露 DLP 技术指南完整电子版.pdf
NIST.SP.800-181 国家网络安全教育计划(NICE)网络安全队伍框架-译文-v2.0 .pdf
GB-T 32915-2016 信息安全技术 二元序列随机性检测方法.pdf
GB-T 40645-2021 信息安全技术 互联网信息服务安全通用要求.pdf
MH-T 6012-2015 航空障碍灯.pdf
GB-T 14617.1-2012 陆地移动业务和固定业务传播特性 第1部分:陆地移动业务传播特性.pdf
GB-T 39329-2020 增材制造 测试方法 标准测试件精度检验.pdf
DPO 美国加利福尼亚州消费者隐私法案(CCPA)修正案汇总 中译文.pdf
GB-T 15227-2019 建筑幕墙气密、水密、抗风压性能检测方法.pdf
1
/
3
16
评价文档
赞助2.5元 点击下载(713.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。