说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111350826.7 (22)申请日 2021.11.15 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 蒋吉林 刘秋艳 高博 蔡明哲  (74)专利代理 机构 北京中博世 达专利商标代理 有限公司 1 1274 代理人 申健 (51)Int.Cl. G06F 21/62(2013.01) G06N 20/00(2019.01) G06N 20/10(2019.01) G06N 20/20(2019.01) G06N 3/08(2006.01)G06N 5/00(2006.01) G06N 7/00(2006.01) (54)发明名称 数据处理方法、 装置、 电子设备和存 储介质 (57)摘要 本申请提供一种数据处理方法、 装置、 电子 设备和存储介质, 涉及大数据技术领域, 能够实 现针对不同数据库的数据表中的敏感数据的自 动化漂白, 进而节约开发及测试成本, 以及提高 数据漂白脱敏效率, 避免敏感信息被泄露。 该方 法包括: 获取待漂白数据库中的所有数据表, 所 有数据表中的至少一个数据表包含 敏感信息; 通 过预置机器学习模型, 识别所有数据表对应的设 计文档中的敏感字段; 根据敏感字段对应的漂白 规则, 对所有数据表中的敏感字段对应的数据进 行漂白, 生成漂白数据表。 本申请可以应用于展 示敏感数据的过程中。 权利要求书2页 说明书13页 附图5页 CN 113987585 A 2022.01.28 CN 113987585 A 1.一种数据处 理方法, 其特 征在于, 包括: 获取待漂白数据库中的所有数据表, 所述所有数据表中的至少一个数据表包含敏感信 息; 通过预置机器学习模型, 识别所述所有数据表对应的设计文档中的敏感字段; 根据所述敏感字段对应的漂白规则, 对所述所有数据表中所述敏感字段对应的数据进 行漂白, 生成漂白数据表。 2.根据权利要求1所述的数据处理方法, 其特征在于, 所述预置机器学习算法模型为以 下任一项: 预置决策树模型、 预置朴素贝叶斯算法模型、 预置支持向量机算法模型、 预置人 工神经网络算法模型、 预置随机森林算法模型、 引导聚集Bagging算法、 提升Boosting算法 和预置关联规则算法模型。 3.根据权利要求2所述的数据处理方法, 其特征在于, 所述通过预置机器学习模型, 识 别所述所有数据表对应的设计文档中的敏感字段之前, 所述方法还 包括: 提取预训练集的每个预置字段的字段特征和所述字段特征对应的字段标识, 所述预训 练集包括至少一个预置 字段, 以及所述至少一个预置 字段中每 个预置字段的字段 标识; 根据所述字段 特征和所述字段 特征对应的字段 标识, 训练所述预置 机器学习模型。 4.根据权利要求1所述的数据处理方法, 其特征在于, 所述通过预置机器学习模型, 识 别所述所有数据表对应的设计文档中的敏感字段, 包括: 获取所述所有数据表对应的设计文档中的每 个表字段的数据结构和字段释义; 将所述数据结构和所述字段释义, 输入所述预置机器学习模型, 以识别所述所有数据 表对应的设计文档中的每 个表字段的敏感字段。 5.根据权利要求1所述的数据处理方法, 其特征在于, 所述获取待漂白数据库中的所有 数据表, 包括: 获取所述待漂白数据库的连接信息, 所述连接信 息包括: 数据库类型、 互联网协议IP地 址、 数据库名称、 用户名和所述用户名对应的密码; 根据所述连接信息, 获取待漂白数据库中的所有数据表。 6.根据权利要求1所述的数据处理方法, 其特征在于, 所述根据 所述敏感字段对应的漂 白规则, 对所述所有 数据表中所述敏感字段对应的数据进行漂白, 生 成漂白数据 表之后, 所 述方法还 包括: 响应于用户输入, 输出所述漂白数据表中的目标漂白数据表, 所述用户输入包括目标 输出字段。 7.一种数据处 理装置, 其特 征在于, 包括: 获取 单元、 识别单 元和生成单 元; 所述获取单元, 用于获取待漂白数据库中的所有数据表, 所述所有数据表中的至少一 个数据表包 含敏感信息; 所述识别单元, 用于通过预置机器学习模型, 识别所述获取单元获取的所有数据表对 应的设计文档中的敏感字段; 所述生成单元, 用于根据所述识别单元识别的敏感字段对应的漂白规则, 对所述所有 数据表中所述敏感字段对应的数据进行漂白, 生成漂白数据表。 8.根据权利要求7 所述的数据处 理装置, 其特 征在于, 所述识别单 元, 具体用于: 获取所述所有数据表对应的设计文档中的每 个表字段的数据结构和字段释义;权 利 要 求 书 1/2 页 2 CN 113987585 A 2将所述数据结构和所述字段释义, 输入所述预置机器学习模型, 以识别所述所有数据 表对应的设计文档中的每 个表字段的敏感字段。 9.一种电子设备, 其特征在于, 包括存储器、 处理器、 总 线和通信 接口; 所述存储器用于 存储计算机执行指令, 所述处理器与所述存储器通过所述总线连接; 当所述电子设备运行 时, 所述处理器执行所述存储器存储的所述计算机执行指令, 以使所述电子设备执行如权 利要求1‑6任一项所述的数据处 理方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质包括计算机执行 指令, 当所述计算机执行指 令在计算机上运行时, 使 得所述计算机执行如权利要求 1‑6任一 项所述的数据处 理方法。权 利 要 求 书 2/2 页 3 CN 113987585 A 3

.PDF文档 专利 数据处理方法、装置、电子设备和存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据处理方法、装置、电子设备和存储介质 第 1 页 专利 数据处理方法、装置、电子设备和存储介质 第 2 页 专利 数据处理方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:02:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。