说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111356723.1 (22)申请日 2021.11.16 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 刘健 田志华 任奎 (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 代理人 邱启旺 (51)Int.Cl. G06N 20/00(2019.01) G06F 21/62(2013.01) (54)发明名称 一种高效安全, 低通信的纵向联邦学习方法 (57)摘要 本发明公开了一种高效安全, 低通信的纵向 联邦学习方法, 该方法包括: 所有参与者选择持 有数据特征集合的部分特征以及所选特征的部 分样本; 所述参与者将选择的数据添加满足差分 隐私的噪声后连同所选样本的数据索引互相发 送给其他参与者; 所有参与者以接收的特征数据 作为标签, 以每个缺失的特征作为学习任务, 利 用相同数据索引中原本持有的特征数据, 分别为 每个任务训练模 型; 所述参与者利用训练的模型 来预测其他样本的数据以补齐特征数据; 所述参 与者利用横向联邦学习来共同训练一个模型。 本 发明的高效安全, 低通信的纵向联邦学习方法可 以借助横向联邦学习的优势, 在高效训练的同时 保护数据隐私, 为数据隐私保护提供量 化支持。 权利要求书2页 说明书7页 附图1页 CN 114186694 A 2022.03.15 CN 114186694 A 1.一种高效安全, 低通信的纵向联邦学习方法, 其特 征在于, 包括以下步骤: (1)所有参与者选择持有数据特征集合的部分特征, 再将所选特征的部分样本添加满 足差分隐私的噪声之后连同所选样本的数据索引互相发送给其他参与者; 所述持有数据特 征集合由特征数据和标签数据组成。 (2)所有参与者依据 数据索引将数据对齐, 并以接收的特征数据作为标签, 以每个缺失 的特征作为学习任务, 利用相同数据索引中原本持有的特征数据, 分别为每个任务训练模 型; (3)所有参与者利用步骤(2)训练的多个模型预测其他数据索引 对应的数据以补齐缺 失的特征数据; (4)所有参与者利用横向联邦学习方法共同合作, 得到最终的训练模型。 2.根据权利要求1所述的高效安全, 低通信的纵向联邦学习方法, 其特征在于, 当所有 参与者均持有标签数据时, 所述持有数据特 征集合仅由特 征数据组成。 3.根据权利要求1所述的高效安全, 低通信的纵向联邦学习方法, 其特征在于, 所述步 骤(1)中, 所述数据特 征集合为个人隐私信息 。 4.根据权利要求1所述的高效安全, 低通信的纵向联邦学习方法, 其特征在于, 所述步 骤(1)中, 每个参与者利用BlinkML方法确定发送给其他每个参与者的每个所选特征的最佳 样本数量, 再依据确定的最佳样本数量将每个所选特征的部分样本添加满足差 分隐私的噪 声之后连同所选样本的数据索引发送给其 他对应参与者。 5.根据权利要求3所述的高效安全, 低通信的纵向联邦学习方法, 其特征在于, 每个参 与者利用BlinkML方法确定发送给其他每个参与者的每个所选特征的最佳样本数量, 具体 为: (a)每个参与者针对选 择的每个 特征i, 均匀并随机选择n0个样本数据, 添加差分隐私噪 声后连同所选样本的数据索引互相发送给其 他参与者。 (b)收到数据的参与者j依据数据索引将数据对齐, 并以接收的该特征i数据作为标签, 利用相同数据索引中原本持有的特 征数据来训练获得模型Mi, j。 (c)构建矩阵Q, Q的每一行为 n0个样本更新Mi, j的模型参数θi, j而得来的参数梯度; (d)计算L=UΛ, 其中, U为矩阵Q奇异值分解后大小为n0×n0的矩阵, Λ为对角矩阵, 其 对角线上第r个元素的值为 sr为∑中的第r个奇异值, β 为正则化系数; ∑为矩阵 Q的奇异值矩阵。 (e)从正态分布N( θi, j, α1LLT)中抽样得到 再从正态分布 中 抽样得到θi, j, N, k, 重复K次得到K对 k表示抽样次数。 其中, 表示发送给参与者j 的第i个特 征的候选样本数量; N 为每个参与者的样本总数。 (f)计算 其中, 表示参与者j以样本x持有的特征数据作为输入, 为模型参数, 模型 Mi, j的输出, D为样本集 合, E(*)表示期望; ∈为实数, 表示阈值。权 利 要 求 书 1/2 页 2 CN 114186694 A 2如果p>1 ‑δ, 令 如果p<1 ‑δ, 令 δ表示阈值, 为实数。 按照步骤(e)(f)过程执行多次, 直至收敛得到每个特征应当选择的最优的候选样 本数量 (g)所述参与者针对参与者j, 每 个特征i随机选择的样本数量 为 6.根据权利要求1所述的高效安全, 低通信的纵向联邦学习方法, 其特征在于: 所述步 骤(2)中, 每个参与者若存在缺失特征未接收到数据, 则利用labeled ‑unlabeled的多任务 学习方法获得 未接收到数据缺失特 征的模型, 具体为: (a)参与者将自身已有的数据划分为m个数据集S, 分别对应每个缺失特征的训练数据, 其中m为参与者缺失特征的数量, I 为缺失特征中有标签任务的集 合; (b)根据训练数据计算数据集之间的差异disc(Sp, Sq), p, q∈{1, ..., m}, p≠q, disc (Sp, Sp)=0; (c)对于每个无标签的任务, 最小化 得到权重σT={σ1, ..., σm}, (e)对于每个无标签的任务, 可通过最小化有标签任务的训练误差的凸组合得到其模 型MT, T∈{1, ..., m}/I: 其中 L(*)为模型以数据集Sp的样本作为输入的损失函数, 表示数据集Sp的样本量, x为输 入的样本特 征, y为标签。权 利 要 求 书 2/2 页 3 CN 114186694 A 3
专利 一种高效安全,低通信的纵向联邦学习方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 19:01:13
上传分享
举报
下载
原文档
(765.0 KB)
分享
友情链接
GB-T 13870.1-2022 电流对人和家畜的效应 第1部分通用部分.pdf
GB-T 6406-2016 超硬磨料 粒度检验.pdf
GB-T 16638.4-2008 空气动力学 概念、量和符号 第4部分:飞机的空气动力、力矩及其系数和导数.pdf
信通院 数据安全技术与产业发展研究报告-2021年.pdf
GB-T 37759-2019 节水型企业 现代煤化工行业.pdf
T-SDMT 0001—2022 电气化铁路高效节能自耦变压器.pdf
JBOSS服务器安全配置基线.doc
GB-T 32915-2016 信息安全技术 二元序列随机性检测方法.pdf
JR-T 0048-2015 保险基数数据模型.pdf
腾讯 2022产业互联网安全十大趋势.pdf
GB-T 3410.2-2008 大坝监测仪器 测缝计 第2部分:振弦式测缝计.pdf
GB-T 42807-2023 港口基础地理信息交换服务技术要求.pdf
GB-T 42916-2023 铝及铝合金产品标识.pdf
GB-T 42381.140-2023 数据质量 第140部分:主数据:特征数据交换:完整性.pdf
GB-T 956.3-2017 锥形弹性垫圈.pdf
GB-T 34411-2017 基本医疗保险待遇稽核业务规范.pdf
GB-T 893-2017 孔用弹性挡圈.pdf
T-ZZB 2304—2021 辐射致 制 冷膜.pdf
GB-T 33018.3-2016 炭素企业节能技术规范 第3部分:机械加工.pdf
ISO 11515 2022 Gas cylinders — Refillable composite reinforced tubes of water capacity between 450 l and 3000 l — Design, construction and testing.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(765.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。