说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210921066.9 (22)申请日 2022.08.02 (71)申请人 哈尔滨理工大 学 地址 150006 黑龙江省哈尔滨市南岗区学 府路52号 申请人 中数 (深圳) 时代科技有限公司 (72)发明人 张罗刚 张宏国 马超 于海宁  孙迎港 颜亭  (74)专利代理 机构 哈尔滨市晨晟知识产权代理 有限公司 23219 专利代理师 刘文权 (51)Int.Cl. G06F 21/62(2013.01) G06Q 10/06(2012.01) (54)发明名称 用于数据价值优化的匿名化模型推荐方法 及设备 (57)摘要 本发明提出一种用于数据价值优化的匿名 化模型推荐方法、 设备, 包括: 导入原始数据, 根 据原始数据的类型和级别, 确定原始数据的风险 阈值; 根据用户需求, 判断匿名化方法为正向辅 助推荐或反向主动推荐; 分别根据选择的匿名化 方法匹配一组候选配置方案, 并对原始数据进行 匿名化处理; 对匿名化处理后的数据进行风险分 析, 保留符合风险阈值的数据; 再对数据进行效 用分析, 选择其中最大值对应的匿名后数据作为 输出; 并将结果加入历史配置方案资源池。 本发 明能够在保证数据安全的前提下, 在对数据进行 匿名化处 理后使得数据价 值最大化。 权利要求书3页 说明书10页 附图2页 CN 115098887 A 2022.09.23 CN 115098887 A 1.一种用于数据价 值优化的匿名化模型推荐方法, 其特 征在于, 包括: 导入原始数据, 根据原 始数据的类型和级别, 确定原 始数据的风险阈值rt; 根据用户需求, 判断匿名化方法为 正向辅助推荐或反向主动推荐; 若为正向辅助推荐, 则获取配置参数p0, 所述配置参数p0包括隐私模型、 隐私模型参数、 抑制限制率及属性权重; 并根据KNN算法, 在历史配置方案资源池中, 基于数据特征F、 配置 参数p0和风险阈值rt自动匹配一组候选配置参数, 并将获取的配置参数p0和自动匹配的一 组候选配置参数记为P=[p0,p1,p2,p3……, pn]; 若为反向主动推荐, 则获取设定的效用的期望值ut; 使用K‑Means算法在历 史配置方案 资源池中, 基于数据特征F、 风险阈值rt及效用的期望值ut, 匹配一组候选配置方案Ps=[ps1, ps2,ps3,……,psn]; 使用正向辅助推荐的候选配置参数P或反向主动推荐的候选配置参数Ps中的配置方案 分别对原始数据进行匿名化处理; 其中使用正向辅助推荐的候选配置参数P对原始数据进 行匿名化处理后的数据记为D, 使用反向主动推荐的候选配置参数Ps对原始数据进行匿名 化处理后的数据记为Ds; 对匿名化处理后的数据, 依次使用对应的风险模型对D或Ds进行风险分析, 将 对D进行风 险分析后的结果记为R, R=[r0,r1,r2,r3,……,rn]; 将对Ds进行风险分析后的结果记为Rs, Rs =[rs0,rs1,rs2,rs3,……,rsn]; 将R中的结果或Rs中的结果与rt对比, 保留小于rt的匿名后数据, 将R中对应的匿名后数 据记为D’, 将Rs中对应的匿名后数据记为DS’; 使用准确率模型、 非均匀熵模型和分辨率模型对D’或DS’中的数据进行效用分析, 分析 结果为准确率模型、 非均匀熵模型和分辨率模型产生结果的平均值, 将D’的分析结果记为 U, 将DS’的分析结果记为Us; 比较U或Us中的值, 选择其中最大值对应的匿名后数据作为输出; 并将其对应的风险值 r、 效用值u、 配置参数p 及对应的原 始数据的数据特 征F加入历史配置方案资源 池。 2.如权利要求1所述的方法, 其特 征在于, 所述风险阈值rt可以为平均风险阈值ravg和/或最高风险阈值rh。 3.如权利要求1所述的方法, 其特征在于, 所述根据KNN算法, 在历史配置方案资源池 中, 基于数据特 征F、 配置参数p0和风险阈值rt自动匹配一组候选配置参数, 包括: 根据数据特征F、 配置参数p0和风险阈值rt计算出与历史配置方案资源池中各组配置方 案的距离d; 按照距离的递增顺序, 对所述历史配置方案资源 池中的配置方案排序; 选取距离最小的K个 配置方案; 确定前K个配置方案所在数据类型的出现频率, 将前K个配置方案中出现频率最高的数 据类型作为配置方案的预测数据分类; 将预测数据分类中的配置方案作为 一组候选配置参数。 4.如权利要求2所述的方法, 其特征在于, 所述风险分析模型包括: 检察官风险模型、 记 者风险模型和营销者 风险模型; 所述对匿名化处 理后的数据, 依次使用对应的风险模型对D或Ds进行风险分析, 包括: 根据所述配置参数p0中的隐私模型, 选择对应的风险模型对D或Ds进行风险分析。权 利 要 求 书 1/3 页 2 CN 115098887 A 25.如权利要求4所述的方法, 其特征在于, 所述检察官风险模型和记者风险模型对应的 风险阈值包括平均风险阈值ravg和最高风险阈值rh; 所述营销者 风险模型对应的风险阈值包括平均风险阈值ravg。 6.如权利要求1所述的方法, 其特征在于, 所述使用K ‑Means算法在历史配置方案资源 池中, 基于数据特征F、 风险阈值rt及效用的期望值ut, 匹配一组候选配置方案Ps=[ps1,ps2, ps3,……,psn], 包括: 采用K‑Means算法对历史配置方案资源 池中具有相似属性特 征的方案进行聚类; 对聚类完成后的历史配置方案资源池中的方案, 根据KNN算法, 基于数据特征F、 风险阈 值rt及效用的期望值ut, 计算出与聚类完成后的历史配置方案资源池中各组配置方案的距 离d; 按照距离的递增顺序, 对所述聚类完成后的历史配置方案资源 池中的配置方案排序; 选取距离最小的K个 配置方案; 确定前K个配置方案所在数据类型的出现频率, 将前K个配置方案中出现频率最高的数 据类型作为配置方案的预测数据分类; 将预测数据分类中的配置方案作为 一组候选配置参数。 7.如权利要求1所述的方法, 其特征在于, 所述数据特征F包括: 数据表字段语义特征、 数据表字段类型 特征、 属性类型 特征及相应属性的数量特 征。 8.一种用于数据价 值优化的匿名化模型推荐装置, 其特 征在于, 包括: 数据导入单元, 用于导入原始数据, 根据原始数据的类型和级别, 确定原始数据的风险 阈值rt; 模型推荐单 元, 用于根据用户需求, 判断匿名化方法为 正向辅助推荐或反向主动推荐; 正向辅助推荐单元, 用于当判断为正向辅助推荐, 则 获取配置参数p0, 所述配置参数p0 包括隐私模 型、 隐私模 型参数、 抑制限制率及属性权重; 并根据KNN算法, 在历史配置方案 资 源池中, 基于数据特征F、 配置 参数p0和风险阈值rt自动匹配 一组候选配置 参数, 并将获取的 配置参数p0和自动匹配的一组候选配置参数记为P=[p0,p1,p2,p3……, pn]; 反向主动推荐单元, 用于当判断为反向主动推荐, 则获取设定的效用的期望值ut; 使用 K‑Means算法在历史配置方案资源池中, 基于数据特征F、 风险阈值rt及效用的期望值ut, 匹 配一组候选配置方案Ps=[ps1,ps2,ps3,……,psn]; 匿名化处理单元, 用于使用正向辅助推荐的候选配置参数P或反向主动推荐的候选配 置参数Ps中的配置方案分别对原始数据进行匿名化处理; 其中使用正向辅助推荐的候选配 置参数P对原始数据进行匿名化处理后的数据记为D, 使用反向主动推荐的候选配置参数Ps 对原始数据进行匿名化处 理后的数据记为Ds; 风险分析单元, 用于对匿名化处理后的数据, 依次使用对应的风险模型对D或Ds进行风 险分析, 将对D进行风险分析后的结果记为R, R=[r0,r1,r2,r3,……,rn]; 将对Ds进行风险分 析后的结果记为Rs, Rs=[rs0,rs1,rs2,rs3,……,rsn]; 将R中的结果或Rs中的结果与rt对比, 保留小于rt的匿名后数据, 将R中对应的匿名后数 据记为D’, 将Rs中对应的匿名后数据记为DS’; 效用分析单元, 用于使用准确率模型、 非均匀熵模型和分辨率模型对D’或DS’中的数据 进行效用分析, 分析结果为准确率模型、 非均匀熵模型和分辨率模型产生结果的平均值, 将权 利 要 求 书 2/3 页 3 CN 115098887 A 3

PDF文档 专利 用于数据价值优化的匿名化模型推荐方法及设备

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于数据价值优化的匿名化模型推荐方法及设备 第 1 页 专利 用于数据价值优化的匿名化模型推荐方法及设备 第 2 页 专利 用于数据价值优化的匿名化模型推荐方法及设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:43上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。