(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210921066.9
(22)申请日 2022.08.02
(71)申请人 哈尔滨理工大 学
地址 150006 黑龙江省哈尔滨市南岗区学
府路52号
申请人 中数 (深圳) 时代科技有限公司
(72)发明人 张罗刚 张宏国 马超 于海宁
孙迎港 颜亭
(74)专利代理 机构 哈尔滨市晨晟知识产权代理
有限公司 23219
专利代理师 刘文权
(51)Int.Cl.
G06F 21/62(2013.01)
G06Q 10/06(2012.01)
(54)发明名称
用于数据价值优化的匿名化模型推荐方法
及设备
(57)摘要
本发明提出一种用于数据价值优化的匿名
化模型推荐方法、 设备, 包括: 导入原始数据, 根
据原始数据的类型和级别, 确定原始数据的风险
阈值; 根据用户需求, 判断匿名化方法为正向辅
助推荐或反向主动推荐; 分别根据选择的匿名化
方法匹配一组候选配置方案, 并对原始数据进行
匿名化处理; 对匿名化处理后的数据进行风险分
析, 保留符合风险阈值的数据; 再对数据进行效
用分析, 选择其中最大值对应的匿名后数据作为
输出; 并将结果加入历史配置方案资源池。 本发
明能够在保证数据安全的前提下, 在对数据进行
匿名化处 理后使得数据价 值最大化。
权利要求书3页 说明书10页 附图2页
CN 115098887 A
2022.09.23
CN 115098887 A
1.一种用于数据价 值优化的匿名化模型推荐方法, 其特 征在于, 包括:
导入原始数据, 根据原 始数据的类型和级别, 确定原 始数据的风险阈值rt;
根据用户需求, 判断匿名化方法为 正向辅助推荐或反向主动推荐;
若为正向辅助推荐, 则获取配置参数p0, 所述配置参数p0包括隐私模型、 隐私模型参数、
抑制限制率及属性权重; 并根据KNN算法, 在历史配置方案资源池中, 基于数据特征F、 配置
参数p0和风险阈值rt自动匹配一组候选配置参数, 并将获取的配置参数p0和自动匹配的一
组候选配置参数记为P=[p0,p1,p2,p3……, pn];
若为反向主动推荐, 则获取设定的效用的期望值ut; 使用K‑Means算法在历 史配置方案
资源池中, 基于数据特征F、 风险阈值rt及效用的期望值ut, 匹配一组候选配置方案Ps=[ps1,
ps2,ps3,……,psn];
使用正向辅助推荐的候选配置参数P或反向主动推荐的候选配置参数Ps中的配置方案
分别对原始数据进行匿名化处理; 其中使用正向辅助推荐的候选配置参数P对原始数据进
行匿名化处理后的数据记为D, 使用反向主动推荐的候选配置参数Ps对原始数据进行匿名
化处理后的数据记为Ds;
对匿名化处理后的数据, 依次使用对应的风险模型对D或Ds进行风险分析, 将 对D进行风
险分析后的结果记为R, R=[r0,r1,r2,r3,……,rn]; 将对Ds进行风险分析后的结果记为Rs, Rs
=[rs0,rs1,rs2,rs3,……,rsn];
将R中的结果或Rs中的结果与rt对比, 保留小于rt的匿名后数据, 将R中对应的匿名后数
据记为D’, 将Rs中对应的匿名后数据记为DS’;
使用准确率模型、 非均匀熵模型和分辨率模型对D’或DS’中的数据进行效用分析, 分析
结果为准确率模型、 非均匀熵模型和分辨率模型产生结果的平均值, 将D’的分析结果记为
U, 将DS’的分析结果记为Us;
比较U或Us中的值, 选择其中最大值对应的匿名后数据作为输出; 并将其对应的风险值
r、 效用值u、 配置参数p 及对应的原 始数据的数据特 征F加入历史配置方案资源 池。
2.如权利要求1所述的方法, 其特 征在于,
所述风险阈值rt可以为平均风险阈值ravg和/或最高风险阈值rh。
3.如权利要求1所述的方法, 其特征在于, 所述根据KNN算法, 在历史配置方案资源池
中, 基于数据特 征F、 配置参数p0和风险阈值rt自动匹配一组候选配置参数, 包括:
根据数据特征F、 配置参数p0和风险阈值rt计算出与历史配置方案资源池中各组配置方
案的距离d;
按照距离的递增顺序, 对所述历史配置方案资源 池中的配置方案排序;
选取距离最小的K个 配置方案;
确定前K个配置方案所在数据类型的出现频率, 将前K个配置方案中出现频率最高的数
据类型作为配置方案的预测数据分类;
将预测数据分类中的配置方案作为 一组候选配置参数。
4.如权利要求2所述的方法, 其特征在于, 所述风险分析模型包括: 检察官风险模型、 记
者风险模型和营销者 风险模型;
所述对匿名化处 理后的数据, 依次使用对应的风险模型对D或Ds进行风险分析, 包括:
根据所述配置参数p0中的隐私模型, 选择对应的风险模型对D或Ds进行风险分析。权 利 要 求 书 1/3 页
2
CN 115098887 A
25.如权利要求4所述的方法, 其特征在于, 所述检察官风险模型和记者风险模型对应的
风险阈值包括平均风险阈值ravg和最高风险阈值rh;
所述营销者 风险模型对应的风险阈值包括平均风险阈值ravg。
6.如权利要求1所述的方法, 其特征在于, 所述使用K ‑Means算法在历史配置方案资源
池中, 基于数据特征F、 风险阈值rt及效用的期望值ut, 匹配一组候选配置方案Ps=[ps1,ps2,
ps3,……,psn], 包括:
采用K‑Means算法对历史配置方案资源 池中具有相似属性特 征的方案进行聚类;
对聚类完成后的历史配置方案资源池中的方案, 根据KNN算法, 基于数据特征F、 风险阈
值rt及效用的期望值ut, 计算出与聚类完成后的历史配置方案资源池中各组配置方案的距
离d;
按照距离的递增顺序, 对所述聚类完成后的历史配置方案资源 池中的配置方案排序;
选取距离最小的K个 配置方案;
确定前K个配置方案所在数据类型的出现频率, 将前K个配置方案中出现频率最高的数
据类型作为配置方案的预测数据分类;
将预测数据分类中的配置方案作为 一组候选配置参数。
7.如权利要求1所述的方法, 其特征在于, 所述数据特征F包括: 数据表字段语义特征、
数据表字段类型 特征、 属性类型 特征及相应属性的数量特 征。
8.一种用于数据价 值优化的匿名化模型推荐装置, 其特 征在于, 包括:
数据导入单元, 用于导入原始数据, 根据原始数据的类型和级别, 确定原始数据的风险
阈值rt;
模型推荐单 元, 用于根据用户需求, 判断匿名化方法为 正向辅助推荐或反向主动推荐;
正向辅助推荐单元, 用于当判断为正向辅助推荐, 则 获取配置参数p0, 所述配置参数p0
包括隐私模 型、 隐私模 型参数、 抑制限制率及属性权重; 并根据KNN算法, 在历史配置方案 资
源池中, 基于数据特征F、 配置 参数p0和风险阈值rt自动匹配 一组候选配置 参数, 并将获取的
配置参数p0和自动匹配的一组候选配置参数记为P=[p0,p1,p2,p3……, pn];
反向主动推荐单元, 用于当判断为反向主动推荐, 则获取设定的效用的期望值ut; 使用
K‑Means算法在历史配置方案资源池中, 基于数据特征F、 风险阈值rt及效用的期望值ut, 匹
配一组候选配置方案Ps=[ps1,ps2,ps3,……,psn];
匿名化处理单元, 用于使用正向辅助推荐的候选配置参数P或反向主动推荐的候选配
置参数Ps中的配置方案分别对原始数据进行匿名化处理; 其中使用正向辅助推荐的候选配
置参数P对原始数据进行匿名化处理后的数据记为D, 使用反向主动推荐的候选配置参数Ps
对原始数据进行匿名化处 理后的数据记为Ds;
风险分析单元, 用于对匿名化处理后的数据, 依次使用对应的风险模型对D或Ds进行风
险分析, 将对D进行风险分析后的结果记为R, R=[r0,r1,r2,r3,……,rn]; 将对Ds进行风险分
析后的结果记为Rs, Rs=[rs0,rs1,rs2,rs3,……,rsn];
将R中的结果或Rs中的结果与rt对比, 保留小于rt的匿名后数据, 将R中对应的匿名后数
据记为D’, 将Rs中对应的匿名后数据记为DS’;
效用分析单元, 用于使用准确率模型、 非均匀熵模型和分辨率模型对D’或DS’中的数据
进行效用分析, 分析结果为准确率模型、 非均匀熵模型和分辨率模型产生结果的平均值, 将权 利 要 求 书 2/3 页
3
CN 115098887 A
3
专利 用于数据价值优化的匿名化模型推荐方法及设备
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:43上传分享