专利 一种将视频模型从源域迁移到目标域的领域自适应方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211106388.4 (22)申请日 2022.09.11 (71)申请人复旦大学地址 200433 上海市杨浦区邯郸路2 20号 (72)发明人陈静静　殷曰浩　姜育刚　 (74)专利代理机构上海正旦专利代理有限公司 31200 专利代理师陆飞　陆尤 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称一种将视频模型从源域迁移到目标域的领域自适应方法 (57)摘要本发明属于计算机技术领域，具体为一种将视频模型从源域迁移到目标域的领域自适应方法。本发明包括：将来自源域的视频样本和来自目标域的样本在时间维度上连接生成混合样本；混合样本领域判别器判别输入样本的领域构成情况，通过对抗学习增强主干网络提取领域无关性特征的能力；混合样本分类器对输入的样本进行分类；在训练过程中，根据混合样本领域判别器和混合样本分类器的损失函数值动态衡量视频模型中不同模态的领域适应程度，令领域适应程度更强的模态作为教师模态，向其他领域适应程度较弱的模态进行知识蒸馏，以增强其他模态的领域适应程度。本发明利用视频模型输入样本的时间维度信息等特点，显著提高视频模型的领域自适应表现。权利要求书3页说明书8页附图1页 CN 115439788 A 2022.12.06 CN 115439788 A 1.一种将视频模型从源域迁移到目标域的领域自适应方法，是基于深度学习技术的，其特征在于，具体步骤包括： (一)混合样本的生成；首先，对输入的视频数据进行图像帧提取与降采样处理及光流计算等,得到大小一致的视频多模态的原始样本，来自源域的原始样本包含视频类别标签，来自目标域的原始样本不包含视频类别标签，且与源域样本分布不同；然后，由一个来自源域的原始样本和一个来自目标域的原始样本，对每个模态都进行按比例截取，并沿时间维度进行拼接形成一个混合样本，混合样本的大小与原始样本保持一致；混合样本同时包含了源域和目标域的领域信息； (二)对抗性混合样本领域判别器的构建；对抗性混合样本领域判别器的构建，是将领域对抗神经网络从图像任务扩展到视频任务，使用来自源域和目标域的原始样本以及由原始样本生成的混合样本，在每个子模态上进行对抗训练；所述混合样本领域判别器由一个梯度反转层和一个两层的全连接层分类器构成，在视频模型每个模态的3D卷积特征提取网络F后面都加入一个混合样本领域判别器 D；对于第m个模态，领域判别器的损失函数包括两个部分： (1)原始样本领域判别损失当输入是来自源域或者目标域的原始样本时，所述的领域判别器判断样本来自哪一个领域：其中， yd是一个代表领域标签的二维向量，当输入x是源域原始样本x∈XS时， yd＝<1,0 >，或当输入x是目标域原始样本x∈XT时， yd＝<0,1>， σ 为softmax函数；是对应于领域判别器D，第m个模态的原始样本领域判别损失； (2)混合样本领域构成判别损失当输入时由来自不同域的原始样本生成的混合样本时，所述的领域判别器判断样本的构成来自源域和目标域各占多少比例：其中， KL表示KL散度，为领域判别器D输出的来自源于和目标域的概率分布， r为混合样本中源域所占比例，为代表混合样本领域构成标签的二维向量；是对应于混合样本领域判别器判断样本的构成来自源域和目标域各占多少比例；设模型共有M个模态，混合样本领域判别器的损失函数为所有模态两项损失之和： (三)混合样本分类器的构建；每个模态的混合样本分类器由两层全连接层构成，加在视频模型每个模态的3D卷积特征提取网络F后面，其输入包括原始样本和混合样本，输出对样本是原始样本还是混合样本的分类结果；权　利　要　求　书 1/3 页 2 CN 115439788 A 2其中， yx是一个代表样本类型标签的二维向量，当输入x是原始样本x∈{XS,XT}时， yd＝< 1,0>，或当输入是混合样本时， yd＝<0,1>；设模型共有M个模态，混合样本分类器的损失函数为所有模态损失之和： (四)动态模态蒸馏；所述动态模态蒸馏，是在训练过程中动态地评估模型各个子模态领域适应能力的强弱，选择领域适应能力更强的模态作为教师模态指导其他领域适应能力弱的模态学习领域无关知识；所述评估方法为，将混合样本领域判别器和混合样本分类器的几项损失函数值相加作为教师分数教师分数值越大，代表该模态的领域适应能力越强；得到各个模态的教师分数之后，选取当前值最大的模态作为教师模态，使用原始样本作为输入数据，向其他所有模态进行知识蒸馏，表达式为：其中， t代表教师模态， Q(xt)代表教师模态视频分类得到的概率分布， P(xi)代表其他学生模态的分类概率分布， KL表示KL散度。 2.根据权利要求1所述的视频模型从源域迁移到目标域的领域自适应方法，其特征在于，基础的视频分类任务由3D卷积主干网络和FCN视频分类器C构成，设模型共有M个模态，视频分类任务损失函数为：其中， y为源域的视频类别标签， σ 为softmax函数；最终的损失函数为： 3.根据权利要求1所述的视频模型从源域迁移到目标域的领域自适应方法，其特征在于，步骤(一)中，对于RGB模态，所述原始样本是对输入的视频数据经过图像帧提取与降采样处理得到的图像帧，维度为时间 ×高度×宽度×通道数t×h×w×c；所述的混合样本由一个来自源域的原始样本和一个来自目标域的原始样本生成，分别从源域原始样本和目标域原始样本中沿时间维度截取r％和(1 ‑r)％，将截取到的两部分沿时间维度进行连接，得到一个所述的混合样本，维度依然是t×h×w×c，该混合样本的领域构成为r％来自源域和 (1‑r)％来自目标域。 4.根据权利要求1、 2或3所述的视频模型从源域迁移到目标域的领域自适应方法，其特征在于，具体操作流程如下： (1)首先，对输入的视频数据进行图像帧提取以及光流计算，并进行降采样处理，得到大小一致的多模态原始样本，降采样的方式为从随机位置开始按固定的采样频率采样16 帧；来自源域的原始样本包含视频类别标签，来自目标域的原始样本不包含视频类别标签且与源域样本分布不同；权　利　要　求　书 2/3 页 3 CN 115439788 A 3

专利 一种将视频模型从源域迁移到目标域的领域自适应方法

专利一种将视频模型从源域迁移到目标域的领域自适应方法