说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111356723.1 (22)申请日 2021.11.16 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 刘健 田志华 任奎  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 代理人 邱启旺 (51)Int.Cl. G06N 20/00(2019.01) G06F 21/62(2013.01) (54)发明名称 一种高效安全, 低通信的纵向联邦学习方法 (57)摘要 本发明公开了一种高效安全, 低通信的纵向 联邦学习方法, 该方法包括: 所有参与者选择持 有数据特征集合的部分特征以及所选特征的部 分样本; 所述参与者将选择的数据添加满足差分 隐私的噪声后连同所选样本的数据索引互相发 送给其他参与者; 所有参与者以接收的特征数据 作为标签, 以每个缺失的特征作为学习任务, 利 用相同数据索引中原本持有的特征数据, 分别为 每个任务训练模 型; 所述参与者利用训练的模型 来预测其他样本的数据以补齐特征数据; 所述参 与者利用横向联邦学习来共同训练一个模型。 本 发明的高效安全, 低通信的纵向联邦学习方法可 以借助横向联邦学习的优势, 在高效训练的同时 保护数据隐私, 为数据隐私保护提供量 化支持。 权利要求书2页 说明书7页 附图1页 CN 114186694 A 2022.03.15 CN 114186694 A 1.一种高效安全, 低通信的纵向联邦学习方法, 其特 征在于, 包括以下步骤: (1)所有参与者选择持有数据特征集合的部分特征, 再将所选特征的部分样本添加满 足差分隐私的噪声之后连同所选样本的数据索引互相发送给其他参与者; 所述持有数据特 征集合由特征数据和标签数据组成。 (2)所有参与者依据 数据索引将数据对齐, 并以接收的特征数据作为标签, 以每个缺失 的特征作为学习任务, 利用相同数据索引中原本持有的特征数据, 分别为每个任务训练模 型; (3)所有参与者利用步骤(2)训练的多个模型预测其他数据索引 对应的数据以补齐缺 失的特征数据; (4)所有参与者利用横向联邦学习方法共同合作, 得到最终的训练模型。 2.根据权利要求1所述的高效安全, 低通信的纵向联邦学习方法, 其特征在于, 当所有 参与者均持有标签数据时, 所述持有数据特 征集合仅由特 征数据组成。 3.根据权利要求1所述的高效安全, 低通信的纵向联邦学习方法, 其特征在于, 所述步 骤(1)中, 所述数据特 征集合为个人隐私信息 。 4.根据权利要求1所述的高效安全, 低通信的纵向联邦学习方法, 其特征在于, 所述步 骤(1)中, 每个参与者利用BlinkML方法确定发送给其他每个参与者的每个所选特征的最佳 样本数量, 再依据确定的最佳样本数量将每个所选特征的部分样本添加满足差 分隐私的噪 声之后连同所选样本的数据索引发送给其 他对应参与者。 5.根据权利要求3所述的高效安全, 低通信的纵向联邦学习方法, 其特征在于, 每个参 与者利用BlinkML方法确定发送给其他每个参与者的每个所选特征的最佳样本数量, 具体 为: (a)每个参与者针对选 择的每个 特征i, 均匀并随机选择n0个样本数据, 添加差分隐私噪 声后连同所选样本的数据索引互相发送给其 他参与者。 (b)收到数据的参与者j依据数据索引将数据对齐, 并以接收的该特征i数据作为标签, 利用相同数据索引中原本持有的特 征数据来训练获得模型Mi, j。 (c)构建矩阵Q, Q的每一行为 n0个样本更新Mi, j的模型参数θi, j而得来的参数梯度; (d)计算L=UΛ, 其中, U为矩阵Q奇异值分解后大小为n0×n0的矩阵, Λ为对角矩阵, 其 对角线上第r个元素的值为 sr为∑中的第r个奇异值, β 为正则化系数; ∑为矩阵 Q的奇异值矩阵。 (e)从正态分布N( θi, j, α1LLT)中抽样得到 再从正态分布 中 抽样得到θi, j, N, k, 重复K次得到K对 k表示抽样次数。 其中, 表示发送给参与者j 的第i个特 征的候选样本数量; N 为每个参与者的样本总数。 (f)计算 其中, 表示参与者j以样本x持有的特征数据作为输入, 为模型参数, 模型 Mi, j的输出, D为样本集 合, E(*)表示期望; ∈为实数, 表示阈值。权 利 要 求 书 1/2 页 2 CN 114186694 A 2如果p>1 ‑δ, 令 如果p<1 ‑δ, 令 δ表示阈值, 为实数。 按照步骤(e)(f)过程执行多次, 直至收敛得到每个特征应当选择的最优的候选样 本数量 (g)所述参与者针对参与者j, 每 个特征i随机选择的样本数量 为 6.根据权利要求1所述的高效安全, 低通信的纵向联邦学习方法, 其特征在于: 所述步 骤(2)中, 每个参与者若存在缺失特征未接收到数据, 则利用labeled ‑unlabeled的多任务 学习方法获得 未接收到数据缺失特 征的模型, 具体为: (a)参与者将自身已有的数据划分为m个数据集S, 分别对应每个缺失特征的训练数据, 其中m为参与者缺失特征的数量, I 为缺失特征中有标签任务的集 合; (b)根据训练数据计算数据集之间的差异disc(Sp, Sq), p, q∈{1, ..., m}, p≠q, disc (Sp, Sp)=0; (c)对于每个无标签的任务, 最小化 得到权重σT={σ1, ..., σm}, (e)对于每个无标签的任务, 可通过最小化有标签任务的训练误差的凸组合得到其模 型MT, T∈{1, ..., m}/I: 其中 L(*)为模型以数据集Sp的样本作为输入的损失函数, 表示数据集Sp的样本量, x为输 入的样本特 征, y为标签。权 利 要 求 书 2/2 页 3 CN 114186694 A 3

.PDF文档 专利 一种高效安全,低通信的纵向联邦学习方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种高效安全,低通信的纵向联邦学习方法 第 1 页 专利 一种高效安全,低通信的纵向联邦学习方法 第 2 页 专利 一种高效安全,低通信的纵向联邦学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:01:13上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。