(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211113015.X
(22)申请日 2022.09.14
(71)申请人 中国矿业大 学
地址 221116 江苏省徐州市泉山区大 学路1
号中国矿业大 学科研院
(72)发明人 姚睿 仇甲柱 周勇 王鹏
张艳宁 胡伏原 祝汉城 赵佳琦
刘兵
(74)专利代理 机构 南京冠誉至恒知识产权代理
有限公司 32426
专利代理师 黄成萍
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06T 7/246(2017.01)
G06T 5/20(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于全局注意力的卷积-Transformer的
RGB-T目标跟踪网络
(57)摘要
本发明公开了一种基于全局注 意力的卷积 ‑
Transformer的RGB ‑T目标跟踪网络 方法, 输入是
一对来自视频流中的可见光和红外图像, 通过构
建卷积‑Transformer特征提取网络, 共 享参数的
Transformer分支处理多模态数据的共 享特征并
建立全局信息模 型。 独立的卷积分支则处理各个
模态的独立特征。 结合全局与局部、 共享和独立
信息特征以充分挖掘多模态数据的可利用信息。
然后通过交叉注意融合模块利用交叉注意力建
立模态之间全局对应关系以加强模态间的信息
交互, 实现深度融合。 通过ROIAlign层将候选样
本映射成固定大小的特征。 最后, 由每个候选样
本映射的融合特征被送入全连接层以预测分数
由二元分类层获得。
权利要求书4页 说明书8页 附图4页
CN 115375948 A
2022.11.22
CN 115375948 A
1.一种基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络方法, 其特征在于:
包括如下步骤:
(1)从RGB ‑T数据流中获取训练样本集, 每个训练样本包括相对应的一幅RGB图像R和一
幅红外图像T;
(2)构建卷积 ‑Transformer网络分步提取RGB图像R和红外图像T的多模态图像特征, 并
聚合卷积特 征和Transformer特 征, 得到RGB特 征Fvis和红外特 征Finf;
(3)构建交叉注意融合模块对RGB特征Fvis和红外特征Finf进行融合, 加强RGB图像R和红
外图像T的信息交 互, 得到融合特 征Fout;
(4)将待预测的候选样本映射在融合特征上, 通过全连接层执行二元分类预测, 待预测
的候选样本属于RGB ‑T数据流中某一帧图片或某一帧图片中的部分;
(5)使用二元分类损失和嵌入损失对二元分类预测进行监督训练, 得到训练好的卷积 ‑
Transformer 跟踪网络;
(6)将视频流及待跟踪图像输入到训练好的卷积 ‑Transformer跟踪网络, 在视频流中
对待跟踪图像进行跟踪, 待跟踪图像属于 视频流中某一帧图片或某一帧图片中的部分。
2.根据权利要求1所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络
方法, 其特征在于: 所述步骤(2)中, 通过卷积 ‑Transformer网络分步提取训练样 本中RGB图
像R和红外图像T的多模态图像特 征, 包括如下步骤:
(21)卷积分支网络通过三个卷积块逐层对输入图像进行特征提取, 依次得到第一、 二、
三层模态特征f1、 f2、 f3, 将f3作为卷积特征; RGB图像R经卷积分支网络得到f1vis、
红外图像T经 卷积分支网络得到f1inf、
(22)Transformer分支网络对输入图像进行输入处理得到X0, 再通过四组Transformer
模块逐层对输入图像进行特征提取, 依次得到第一、 二、 三、 四层全局共享特征X1、 X2、 X3、 X4,
最后进行输出处理得到X, 将X作为Transformer特征; RGB图像R经Transformer分支网络得
到
和Xvis, 红外图像T经Transformer分支网络得到
和Xinf;
(23)逐元素相加
和Xvis, 再经过层归一化运算后得到RGB特征Fvis; 逐元素相加
和
Xinf, 再经过层归一 化运算后得到红外特 征Finf。
3.根据权利要求2所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络
方法, 其特征在于: 所述步骤(21)中, 卷积分支网络由两个不共享参数的卷积分支组成, 其
中一个卷积分支用于提取RGB图像R的特征, 另一个卷积分支用于处理红外图像T的特征; 每
个卷积分支由三个依次连接的卷积块组成;
第一个卷积块包括一个滤波器、 一个ReLU激活函数、 一个局部响应归一化层和一个最
大池化层, 用于获取第一层 模态特征, 滤波器为输出通道数为96、 卷积核 大小为7×7的滤波
器;
第二个卷积块包括一个滤波器、 一个ReLU激活函数、 一个局部响应归一化层和一个最
大池化层, 用于获取第二层模态特征, 滤波器为输出通道数为256、 卷积核大小为5 ×5的滤
波器;权 利 要 求 书 1/4 页
2
CN 115375948 A
2第三个卷积块包括一个滤波器和一个ReLU激活函数, 用于获取第三层模态特征, 滤波
器为输出通道数为512、 卷积核大小为3 ×3的滤波器。
4.根据权利要求2所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络
方法, 其特征在于: 所述步骤(22)中, Transformer分支 网络按照如下方法获得全局 共享特
征:
(221)对不固定尺寸的输入图像进行输入处理, 将输入图像的通道数由3变为64, 得到
X0;
(222)通过四个阶段完成全局共享特征的提取, 在每一个阶段, 使用一组Transformer
模块对输入特征进行处理; 在第一、 二、 三阶段, 先使用Transformer模块组处理输入特征,
再对Transformer模块组的输出进行下采样, 下采样的结果作为下一Transformer模块组的
输入特征;
在每个Transformer模块 中, 输入特征先经展平处理, 再经由层归一化运算形成特征向
量I, 然后通过不同的线性变换层执行线性映射 获取查询集Q、 键集K和值集V, 接着对查询集
Q、 键集K和值集V进行自注意力操作, 再接着通过残差连接输入特征和自注意力操作结果,
最后再由层归一 化运算形成Transformer模块的输出; 表示 为:
Q=LQ(I), K=LK(I), V=LV(I)
Attention(Q,K,V)=softmamax(QKT)V
SA(I)=A ttention(Q,K,V)
其中: LQ、 LK、 LV分别表示Transformer模块中查询集、 键集、 值集的线性变换层;
Attention表示自注意力机制的运算函数, softmamax表示多分类的归一化指数函数, SA表
示Transformer模块中自注意力的过程 函数;
(223)第一、 二、 三、 四阶段的输出分别为X1、 X2、 X3、 X4, 对X4进行输出处理得到X, 即使用
池化层将X4变为与f3尺寸相同的X, 实现特 征间的对齐。
5.根据权利要求4所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络
方法, 其特征在于: 所述步骤(222)中, 通过四个阶段完成全局共享特征的提取, 在第一、 二、
三、 四阶段, Transformer模块组中Transformer模块的数量分别为2、 2、 2、 1, 同一
Transformer模块组中的Transformer模块 顺序连接 。
6.根据权利要求4所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络
方法, 其特征在于: 所述步骤(222)中, 通过四个阶段完成全局共享特征的提取, 在第一、 二、
三阶段, 先使用Transformer模块组处理输入特征, 再对Transformer模块组的输出进行下
采样, 通过下采样, 将第一、 二、 三阶段Transformer模块组输出的特征尺寸分别调整为
H、 W和C分别表示X0的长、 宽和通道数。
7.根据权利要求1所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络
方法, 其特征在于: 所述步骤(3)中, 构建交叉注 意融合模块加强RGB图像R和红外图像T的信
息交互与融合, 包括如下步骤:
(31)通过键集、 值集的线性变换层获取RGB特征Fvis的键集
和值集
通过查询集的线性变换层获取红外特征Finf的查询集
执行权 利 要 求 书 2/4 页
3
CN 115375948 A
3
专利 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:04:48上传分享