(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211106388.4
(22)申请日 2022.09.11
(71)申请人 复旦大学
地址 200433 上海市杨 浦区邯郸路2 20号
(72)发明人 陈静静 殷曰浩 姜育刚
(74)专利代理 机构 上海正旦专利代理有限公司
31200
专利代理师 陆飞 陆尤
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/82(2022.01)
G06V 10/764(2022.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
(54)发明名称
一种将视频模型从源域迁移到目标域的领
域自适应方法
(57)摘要
本发明属于计算机技术领域, 具体为一种将
视频模型从源域迁移到目标域的领域自适应方
法。 本发明包括: 将来自源域的视频样本和来自
目标域的样 本在时间维度上连接生成混合样本;
混合样本领域判别器判别输入样本的领域构成
情况, 通过对抗学习增强主干网络提取领域无关
性特征的能力; 混合样本分类器对输入的样本进
行分类; 在训练过程中, 根据混合样本领域判别
器和混合样本分类器的损失函数值动态衡量视
频模型中不同模态的领域适应程度, 令领域适应
程度更强的模态作为教师模态, 向其他领域适应
程度较弱的模态进行知 识蒸馏, 以增强其他模态
的领域适应程度。 本发明利用视频模 型输入样本
的时间维度信息等特点, 显著提高视频模型的领
域自适应表现。
权利要求书3页 说明书8页 附图1页
CN 115439788 A
2022.12.06
CN 115439788 A
1.一种将视频模型从源域迁移到目标域的领域自适应方法, 是基于深度学习技术的,
其特征在于, 具体步骤 包括:
(一)混合样本的生成;
首先, 对输入的视频数据进行图像帧提取与降采样处理及光流计算等,得到大小一致
的视频多模态的原始样本, 来自源域的原始样本包含视频类别标签, 来自目标域的原始样
本不包含视频类别标签, 且与源域样本分布不同;
然后, 由一个来自源域的原始样本和一个来自目标域的原始样本, 对每个模态都进行
按比例截取, 并沿时间维度进行拼接形成一个混合样本, 混合样本的大小与原始样本保持
一致; 混合样本同时包 含了源域和目标域的领域信息;
(二)对抗 性混合样本领域判别器的构建;
对抗性混合样本领域判别器的构建, 是将领域对抗神经网络从图像任务扩展到视频任
务, 使用来自源域和目标域的原始样本以及由原始样本生成的混合样本, 在每个子模态上
进行对抗训练; 所述混合样本领域判别器由一个梯度反转层和一个两层的全连接层分类器
构成, 在视频模型每个模态的3D卷积特征提取网络F后面都加入一个混合样本领域判别器
D; 对于第m个模态, 领域判别器的损失函数包括两个部分:
(1)原始样本领域判别损失
当输入是来自源域或者目标域的原始样本时, 所述
的领域判别器判断样本来自哪一个领域:
其中, yd是一个代表领域标签 的二维向量, 当输入x是源域原始样本x∈XS时, yd=<1,0
>, 或当输入x是目标域原始样本x∈XT时, yd=<0,1>, σ 为softmax函数;
是对应于领
域判别器D, 第m个模态的原 始样本领域判别损失;
(2)混合样本领域构成判别损失
当输入时由来 自不同域的原始样本生成的混合
样本
时, 所述的领域判别器判断样本的构成来自源域和目标域各占多少比例:
其中, KL表示KL散度,
为领域判别器D输 出的来自源于和目标域的概率 分布, r为
混合样本中源域所占比例,
为代表混合样本领域构成标签的二维向
量;
是对应于混合样本
领域判别器判断样本的构成来自源域和目标域各占多少
比例;
设模型共有M个模态, 混合样本领域判别器的损失函数为所有模态两项损失之和:
(三)混合样本分类 器的构建;
每个模态的混合样本分类器由两层全连接层构 成, 加在视频模型每个模态的3D卷积特
征提取网络F后面, 其输入包括原始样本和混合样本, 输出对样本是原始样 本还是混合样本
的分类结果;权 利 要 求 书 1/3 页
2
CN 115439788 A
2其中, yx是一个代表样本类 型标签的二维向量, 当输入x是原始样本x∈{XS,XT}时, yd=<
1,0>, 或当输入是混合样本时, yd=<0,1>;
设模型共有M个模态, 混合样本分类 器的损失函数为所有模态损失之和:
(四)动态模态蒸馏;
所述动态模态蒸馏, 是在训练过程中动态地评估模型各个子模态领域适应能力的强
弱, 选择领域适应能力更强的模态作为教师模态指导其他领域适应能力弱的模态学习领域
无关知识; 所述评估方法为, 将混合样本领域判别器和混合样本分类器的几项损失函数值
相加作为教师分数
教师分数
值越大, 代 表该模态的领域 适应能力越强;
得到各个模态的教师分数
之后, 选取当前
值最大的模态作 为教师模态, 使用原始
样本作为输入数据, 向其 他所有模态进行知识蒸馏, 表达式为:
其中, t代表教师模态, Q(xt)代表教师模态视频分类得到的概率分布, P(xi)代表其他学
生模态的分类概 率分布, KL表示KL散度。
2.根据权利要求1所述的视频模型从源域迁移到目标域的领域自适应方法, 其特征在
于, 基础的视频分类任务由3D卷积主干网络和FCN视频分类器C构成, 设模型共有M个模态,
视频分类任务损失函数为:
其中, y为源域的视频类别标签, σ 为softmax函数;
最终的损失函数为:
3.根据权利要求1所述的视频模型从源域迁移到目标域的领域自适应方法, 其特征在
于, 步骤(一)中, 对于RGB模态, 所述原始样本是对输入的视频数据经过图像帧提取与降采
样处理得到的图像帧, 维度为时间 ×高度×宽度×通道数t×h×w×c; 所述的混合样本由
一个来自源域的原始样 本和一个来自目标域的原始样本生成, 分别从源域原始样本和目标
域原始样本中沿时间维度截取r%和(1 ‑r)%, 将截取到的两部分沿时间维度进行连接, 得
到一个所述的混合样本, 维度依然 是t×h×w×c, 该混合样 本的领域构成为r%来自源域和
(1‑r)%来自目标域。
4.根据权利要求1、 2或3所述的视频模型从源域迁移到目标域的领域自适应方法, 其特
征在于, 具体操作流 程如下:
(1)首先, 对输入的视频数据进行图像帧提取以及光流计算, 并进行降采样处理, 得到
大小一致的多模态原始样本, 降采样的方式为从随机位置开始按固定的采样频率采样16
帧; 来自源域的原始样本包含视频类别标签, 来自目标域的原始样本不包含视频类别标签
且与源域样本分布不同;权 利 要 求 书 2/3 页
3
CN 115439788 A
3
专利 一种将视频模型从源域迁移到目标域的领域自适应方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:52上传分享