专利 一种高效安全，低通信的纵向联邦学习方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111356723.1 (22)申请日 2021.11.16 (71)申请人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人刘健　田志华　任奎　 (74)专利代理机构杭州求是专利事务所有限公司 33200 代理人邱启旺 (51)Int.Cl. G06N 20/00(2019.01) G06F 21/62(2013.01) (54)发明名称一种高效安全，低通信的纵向联邦学习方法 (57)摘要本发明公开了一种高效安全，低通信的纵向联邦学习方法，该方法包括：所有参与者选择持有数据特征集合的部分特征以及所选特征的部分样本；所述参与者将选择的数据添加满足差分隐私的噪声后连同所选样本的数据索引互相发送给其他参与者；所有参与者以接收的特征数据作为标签，以每个缺失的特征作为学习任务，利用相同数据索引中原本持有的特征数据，分别为每个任务训练模型；所述参与者利用训练的模型来预测其他样本的数据以补齐特征数据；所述参与者利用横向联邦学习来共同训练一个模型。本发明的高效安全，低通信的纵向联邦学习方法可以借助横向联邦学习的优势，在高效训练的同时保护数据隐私，为数据隐私保护提供量化支持。权利要求书2页说明书7页附图1页 CN 114186694 A 2022.03.15 CN 114186694 A 1.一种高效安全，低通信的纵向联邦学习方法，其特征在于，包括以下步骤： (1)所有参与者选择持有数据特征集合的部分特征，再将所选特征的部分样本添加满足差分隐私的噪声之后连同所选样本的数据索引互相发送给其他参与者；所述持有数据特征集合由特征数据和标签数据组成。 (2)所有参与者依据数据索引将数据对齐，并以接收的特征数据作为标签，以每个缺失的特征作为学习任务，利用相同数据索引中原本持有的特征数据，分别为每个任务训练模型； (3)所有参与者利用步骤(2)训练的多个模型预测其他数据索引对应的数据以补齐缺失的特征数据； (4)所有参与者利用横向联邦学习方法共同合作，得到最终的训练模型。 2.根据权利要求1所述的高效安全，低通信的纵向联邦学习方法，其特征在于，当所有参与者均持有标签数据时，所述持有数据特征集合仅由特征数据组成。 3.根据权利要求1所述的高效安全，低通信的纵向联邦学习方法，其特征在于，所述步骤(1)中，所述数据特征集合为个人隐私信息。 4.根据权利要求1所述的高效安全，低通信的纵向联邦学习方法，其特征在于，所述步骤(1)中，每个参与者利用BlinkML方法确定发送给其他每个参与者的每个所选特征的最佳样本数量，再依据确定的最佳样本数量将每个所选特征的部分样本添加满足差分隐私的噪声之后连同所选样本的数据索引发送给其他对应参与者。 5.根据权利要求3所述的高效安全，低通信的纵向联邦学习方法，其特征在于，每个参与者利用BlinkML方法确定发送给其他每个参与者的每个所选特征的最佳样本数量，具体为： (a)每个参与者针对选择的每个特征i，均匀并随机选择n0个样本数据，添加差分隐私噪声后连同所选样本的数据索引互相发送给其他参与者。 (b)收到数据的参与者j依据数据索引将数据对齐，并以接收的该特征i数据作为标签，利用相同数据索引中原本持有的特征数据来训练获得模型Mi， j。 (c)构建矩阵Q， Q的每一行为 n0个样本更新Mi， j的模型参数θi， j而得来的参数梯度； (d)计算L＝UΛ，其中， U为矩阵Q奇异值分解后大小为n0×n0的矩阵， Λ为对角矩阵，其对角线上第r个元素的值为 sr为∑中的第r个奇异值， β 为正则化系数； ∑为矩阵 Q的奇异值矩阵。 (e)从正态分布N( θi， j， α1LLT)中抽样得到再从正态分布中抽样得到θi， j， N， k，重复K次得到K对 k表示抽样次数。其中，表示发送给参与者j 的第i个特征的候选样本数量； N 为每个参与者的样本总数。 (f)计算其中，表示参与者j以样本x持有的特征数据作为输入，为模型参数，模型 Mi， j的输出， D为样本集合， E(*)表示期望； ∈为实数，表示阈值。权　利　要　求　书 1/2 页 2 CN 114186694 A 2如果p＞1 ‑δ，令如果p＜1 ‑δ，令 δ表示阈值，为实数。按照步骤(e)(f)过程执行多次，直至收敛得到每个特征应当选择的最优的候选样本数量 (g)所述参与者针对参与者j，每个特征i随机选择的样本数量为 6.根据权利要求1所述的高效安全，低通信的纵向联邦学习方法，其特征在于：所述步骤(2)中，每个参与者若存在缺失特征未接收到数据，则利用labeled ‑unlabeled的多任务学习方法获得未接收到数据缺失特征的模型，具体为： (a)参与者将自身已有的数据划分为m个数据集S，分别对应每个缺失特征的训练数据，其中m为参与者缺失特征的数量， I 为缺失特征中有标签任务的集合； (b)根据训练数据计算数据集之间的差异disc(Sp， Sq)， p， q∈{1， ...， m}， p≠q， disc (Sp， Sp)＝0； (c)对于每个无标签的任务，最小化得到权重σT＝{σ1， ...， σm}， (e)对于每个无标签的任务，可通过最小化有标签任务的训练误差的凸组合得到其模型MT， T∈{1， ...， m}/I：其中 L(*)为模型以数据集Sp的样本作为输入的损失函数，表示数据集Sp的样本量， x为输入的样本特征， y为标签。权　利　要　求　书 2/2 页 3 CN 114186694 A 3

专利 一种高效安全，低通信的纵向联邦学习方法

专利一种高效安全，低通信的纵向联邦学习方法