专利 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211113015.X (22)申请日 2022.09.14 (71)申请人中国矿业大学地址 221116 江苏省徐州市泉山区大学路1 号中国矿业大学科研院 (72)发明人姚睿　仇甲柱　周勇　王鹏　张艳宁　胡伏原　祝汉城　赵佳琦　刘兵　 (74)专利代理机构南京冠誉至恒知识产权代理有限公司 32426 专利代理师黄成萍 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06T 7/246(2017.01) G06T 5/20(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于全局注意力的卷积-Transformer的 RGB-T目标跟踪网络 (57)摘要本发明公开了一种基于全局注意力的卷积 ‑ Transformer的RGB ‑T目标跟踪网络方法，输入是一对来自视频流中的可见光和红外图像，通过构建卷积‑Transformer特征提取网络，共享参数的 Transformer分支处理多模态数据的共享特征并建立全局信息模型。独立的卷积分支则处理各个模态的独立特征。结合全局与局部、共享和独立信息特征以充分挖掘多模态数据的可利用信息。然后通过交叉注意融合模块利用交叉注意力建立模态之间全局对应关系以加强模态间的信息交互，实现深度融合。通过ROIAlign层将候选样本映射成固定大小的特征。最后，由每个候选样本映射的融合特征被送入全连接层以预测分数由二元分类层获得。权利要求书4页说明书8页附图4页 CN 115375948 A 2022.11.22 CN 115375948 A 1.一种基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络方法，其特征在于：包括如下步骤： (1)从RGB ‑T数据流中获取训练样本集，每个训练样本包括相对应的一幅RGB图像R和一幅红外图像T； (2)构建卷积 ‑Transformer网络分步提取RGB图像R和红外图像T的多模态图像特征，并聚合卷积特征和Transformer特征，得到RGB特征Fvis和红外特征Finf； (3)构建交叉注意融合模块对RGB特征Fvis和红外特征Finf进行融合，加强RGB图像R和红外图像T的信息交互，得到融合特征Fout； (4)将待预测的候选样本映射在融合特征上，通过全连接层执行二元分类预测，待预测的候选样本属于RGB ‑T数据流中某一帧图片或某一帧图片中的部分； (5)使用二元分类损失和嵌入损失对二元分类预测进行监督训练，得到训练好的卷积 ‑ Transformer 跟踪网络； (6)将视频流及待跟踪图像输入到训练好的卷积 ‑Transformer跟踪网络，在视频流中对待跟踪图像进行跟踪，待跟踪图像属于视频流中某一帧图片或某一帧图片中的部分。 2.根据权利要求1所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络方法，其特征在于：所述步骤(2)中，通过卷积 ‑Transformer网络分步提取训练样本中RGB图像R和红外图像T的多模态图像特征，包括如下步骤： (21)卷积分支网络通过三个卷积块逐层对输入图像进行特征提取，依次得到第一、二、三层模态特征f1、 f2、 f3，将f3作为卷积特征； RGB图像R经卷积分支网络得到f1vis、红外图像T经卷积分支网络得到f1inf、 (22)Transformer分支网络对输入图像进行输入处理得到X0，再通过四组Transformer 模块逐层对输入图像进行特征提取，依次得到第一、二、三、四层全局共享特征X1、 X2、 X3、 X4，最后进行输出处理得到X，将X作为Transformer特征； RGB图像R经Transformer分支网络得到和Xvis，红外图像T经Transformer分支网络得到和Xinf； (23)逐元素相加和Xvis，再经过层归一化运算后得到RGB特征Fvis；逐元素相加和 Xinf，再经过层归一化运算后得到红外特征Finf。 3.根据权利要求2所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络方法，其特征在于：所述步骤(21)中，卷积分支网络由两个不共享参数的卷积分支组成，其中一个卷积分支用于提取RGB图像R的特征，另一个卷积分支用于处理红外图像T的特征；每个卷积分支由三个依次连接的卷积块组成；第一个卷积块包括一个滤波器、一个ReLU激活函数、一个局部响应归一化层和一个最大池化层，用于获取第一层模态特征，滤波器为输出通道数为96、卷积核大小为7×7的滤波器；第二个卷积块包括一个滤波器、一个ReLU激活函数、一个局部响应归一化层和一个最大池化层，用于获取第二层模态特征，滤波器为输出通道数为256、卷积核大小为5 ×5的滤波器；权　利　要　求　书 1/4 页 2 CN 115375948 A 2第三个卷积块包括一个滤波器和一个ReLU激活函数，用于获取第三层模态特征，滤波器为输出通道数为512、卷积核大小为3 ×3的滤波器。 4.根据权利要求2所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络方法，其特征在于：所述步骤(22)中， Transformer分支网络按照如下方法获得全局共享特征： (221)对不固定尺寸的输入图像进行输入处理，将输入图像的通道数由3变为64，得到 X0； (222)通过四个阶段完成全局共享特征的提取，在每一个阶段，使用一组Transformer 模块对输入特征进行处理；在第一、二、三阶段，先使用Transformer模块组处理输入特征，再对Transformer模块组的输出进行下采样，下采样的结果作为下一Transformer模块组的输入特征；在每个Transformer模块中，输入特征先经展平处理，再经由层归一化运算形成特征向量I，然后通过不同的线性变换层执行线性映射获取查询集Q、键集K和值集V，接着对查询集 Q、键集K和值集V进行自注意力操作，再接着通过残差连接输入特征和自注意力操作结果，最后再由层归一化运算形成Transformer模块的输出；表示为： Q＝LQ(I)， K＝LK(I)， V＝LV(I) Attention(Q,K,V)＝softmamax(QKT)V SA(I)＝A ttention(Q,K,V) 其中： LQ、 LK、 LV分别表示Transformer模块中查询集、键集、值集的线性变换层； Attention表示自注意力机制的运算函数， softmamax表示多分类的归一化指数函数， SA表示Transformer模块中自注意力的过程函数； (223)第一、二、三、四阶段的输出分别为X1、 X2、 X3、 X4，对X4进行输出处理得到X，即使用池化层将X4变为与f3尺寸相同的X，实现特征间的对齐。 5.根据权利要求4所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络方法，其特征在于：所述步骤(222)中，通过四个阶段完成全局共享特征的提取，在第一、二、三、四阶段， Transformer模块组中Transformer模块的数量分别为2、 2、 2、 1，同一 Transformer模块组中的Transformer模块顺序连接。 6.根据权利要求4所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络方法，其特征在于：所述步骤(222)中，通过四个阶段完成全局共享特征的提取，在第一、二、三阶段，先使用Transformer模块组处理输入特征，再对Transformer模块组的输出进行下采样，通过下采样，将第一、二、三阶段Transformer模块组输出的特征尺寸分别调整为 H、 W和C分别表示X0的长、宽和通道数。 7.根据权利要求1所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络方法，其特征在于：所述步骤(3)中，构建交叉注意融合模块加强RGB图像R和红外图像T的信息交互与融合，包括如下步骤： (31)通过键集、值集的线性变换层获取RGB特征Fvis的键集和值集通过查询集的线性变换层获取红外特征Finf的查询集执行权　利　要　求　书 2/4 页 3 CN 115375948 A 3

专利 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络

专利基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络