说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211113015.X (22)申请日 2022.09.14 (71)申请人 中国矿业大 学 地址 221116 江苏省徐州市泉山区大 学路1 号中国矿业大 学科研院 (72)发明人 姚睿 仇甲柱 周勇 王鹏  张艳宁 胡伏原 祝汉城 赵佳琦  刘兵  (74)专利代理 机构 南京冠誉至恒知识产权代理 有限公司 32426 专利代理师 黄成萍 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06T 7/246(2017.01) G06T 5/20(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于全局注意力的卷积-Transformer的 RGB-T目标跟踪网络 (57)摘要 本发明公开了一种基于全局注 意力的卷积 ‑ Transformer的RGB ‑T目标跟踪网络 方法, 输入是 一对来自视频流中的可见光和红外图像, 通过构 建卷积‑Transformer特征提取网络, 共 享参数的 Transformer分支处理多模态数据的共 享特征并 建立全局信息模 型。 独立的卷积分支则处理各个 模态的独立特征。 结合全局与局部、 共享和独立 信息特征以充分挖掘多模态数据的可利用信息。 然后通过交叉注意融合模块利用交叉注意力建 立模态之间全局对应关系以加强模态间的信息 交互, 实现深度融合。 通过ROIAlign层将候选样 本映射成固定大小的特征。 最后, 由每个候选样 本映射的融合特征被送入全连接层以预测分数 由二元分类层获得。 权利要求书4页 说明书8页 附图4页 CN 115375948 A 2022.11.22 CN 115375948 A 1.一种基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络方法, 其特征在于: 包括如下步骤: (1)从RGB ‑T数据流中获取训练样本集, 每个训练样本包括相对应的一幅RGB图像R和一 幅红外图像T; (2)构建卷积 ‑Transformer网络分步提取RGB图像R和红外图像T的多模态图像特征, 并 聚合卷积特 征和Transformer特 征, 得到RGB特 征Fvis和红外特 征Finf; (3)构建交叉注意融合模块对RGB特征Fvis和红外特征Finf进行融合, 加强RGB图像R和红 外图像T的信息交 互, 得到融合特 征Fout; (4)将待预测的候选样本映射在融合特征上, 通过全连接层执行二元分类预测, 待预测 的候选样本属于RGB ‑T数据流中某一帧图片或某一帧图片中的部分; (5)使用二元分类损失和嵌入损失对二元分类预测进行监督训练, 得到训练好的卷积 ‑ Transformer 跟踪网络; (6)将视频流及待跟踪图像输入到训练好的卷积 ‑Transformer跟踪网络, 在视频流中 对待跟踪图像进行跟踪, 待跟踪图像属于 视频流中某一帧图片或某一帧图片中的部分。 2.根据权利要求1所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络 方法, 其特征在于: 所述步骤(2)中, 通过卷积 ‑Transformer网络分步提取训练样 本中RGB图 像R和红外图像T的多模态图像特 征, 包括如下步骤: (21)卷积分支网络通过三个卷积块逐层对输入图像进行特征提取, 依次得到第一、 二、 三层模态特征f1、 f2、 f3, 将f3作为卷积特征; RGB图像R经卷积分支网络得到f1vis、 红外图像T经 卷积分支网络得到f1inf、 (22)Transformer分支网络对输入图像进行输入处理得到X0, 再通过四组Transformer 模块逐层对输入图像进行特征提取, 依次得到第一、 二、 三、 四层全局共享特征X1、 X2、 X3、 X4, 最后进行输出处理得到X, 将X作为Transformer特征; RGB图像R经Transformer分支网络得 到 和Xvis, 红外图像T经Transformer分支网络得到 和Xinf; (23)逐元素相加 和Xvis, 再经过层归一化运算后得到RGB特征Fvis; 逐元素相加 和 Xinf, 再经过层归一 化运算后得到红外特 征Finf。 3.根据权利要求2所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络 方法, 其特征在于: 所述步骤(21)中, 卷积分支网络由两个不共享参数的卷积分支组成, 其 中一个卷积分支用于提取RGB图像R的特征, 另一个卷积分支用于处理红外图像T的特征; 每 个卷积分支由三个依次连接的卷积块组成; 第一个卷积块包括一个滤波器、 一个ReLU激活函数、 一个局部响应归一化层和一个最 大池化层, 用于获取第一层 模态特征, 滤波器为输出通道数为96、 卷积核 大小为7×7的滤波 器; 第二个卷积块包括一个滤波器、 一个ReLU激活函数、 一个局部响应归一化层和一个最 大池化层, 用于获取第二层模态特征, 滤波器为输出通道数为256、 卷积核大小为5 ×5的滤 波器;权 利 要 求 书 1/4 页 2 CN 115375948 A 2第三个卷积块包括一个滤波器和一个ReLU激活函数, 用于获取第三层模态特征, 滤波 器为输出通道数为512、 卷积核大小为3 ×3的滤波器。 4.根据权利要求2所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络 方法, 其特征在于: 所述步骤(22)中, Transformer分支 网络按照如下方法获得全局 共享特 征: (221)对不固定尺寸的输入图像进行输入处理, 将输入图像的通道数由3变为64, 得到 X0; (222)通过四个阶段完成全局共享特征的提取, 在每一个阶段, 使用一组Transformer 模块对输入特征进行处理; 在第一、 二、 三阶段, 先使用Transformer模块组处理输入特征, 再对Transformer模块组的输出进行下采样, 下采样的结果作为下一Transformer模块组的 输入特征; 在每个Transformer模块 中, 输入特征先经展平处理, 再经由层归一化运算形成特征向 量I, 然后通过不同的线性变换层执行线性映射 获取查询集Q、 键集K和值集V, 接着对查询集 Q、 键集K和值集V进行自注意力操作, 再接着通过残差连接输入特征和自注意力操作结果, 最后再由层归一 化运算形成Transformer模块的输出; 表示 为: Q=LQ(I), K=LK(I), V=LV(I) Attention(Q,K,V)=softmamax(QKT)V SA(I)=A ttention(Q,K,V) 其中: LQ、 LK、 LV分别表示Transformer模块中查询集、 键集、 值集的线性变换层; Attention表示自注意力机制的运算函数, softmamax表示多分类的归一化指数函数, SA表 示Transformer模块中自注意力的过程 函数; (223)第一、 二、 三、 四阶段的输出分别为X1、 X2、 X3、 X4, 对X4进行输出处理得到X, 即使用 池化层将X4变为与f3尺寸相同的X, 实现特 征间的对齐。 5.根据权利要求4所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络 方法, 其特征在于: 所述步骤(222)中, 通过四个阶段完成全局共享特征的提取, 在第一、 二、 三、 四阶段, Transformer模块组中Transformer模块的数量分别为2、 2、 2、 1, 同一 Transformer模块组中的Transformer模块 顺序连接 。 6.根据权利要求4所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络 方法, 其特征在于: 所述步骤(222)中, 通过四个阶段完成全局共享特征的提取, 在第一、 二、 三阶段, 先使用Transformer模块组处理输入特征, 再对Transformer模块组的输出进行下 采样, 通过下采样, 将第一、 二、 三阶段Transformer模块组输出的特征尺寸分别调整为 H、 W和C分别表示X0的长、 宽和通道数。 7.根据权利要求1所述的基于全局注意力的卷积 ‑Transformer的RGB ‑T目标跟踪网络 方法, 其特征在于: 所述步骤(3)中, 构建交叉注 意融合模块加强RGB图像R和红外图像T的信 息交互与融合, 包括如下步骤: (31)通过键集、 值集的线性变换层获取RGB特征Fvis的键集 和值集 通过查询集的线性变换层获取红外特征Finf的查询集 执行权 利 要 求 书 2/4 页 3 CN 115375948 A 3

PDF文档 专利 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络 第 1 页 专利 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络 第 2 页 专利 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:04:48上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。