专利 多层级局部和全局特征自适应融合的目标检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210277660.9 (22)申请日 2022.03.21 (71)申请人天津大学地址 300072 天津市南开区卫津路9 2号 (72)发明人曹家乐　庞彦伟　 (74)专利代理机构天津市北洋有限责任专利代理事务所 12 201 专利代理师程毓英 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/25(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称多层级局部和全局特征自适应融合的目标检测方法 (57)摘要本发明涉及一种多层级局部和全局特征自适应融合的目标检测方法，包括下列步骤：步骤 1：准备目标检测的训练数据集；步骤2：选定目标检测的主干网络，搭建候选检测窗口提取网络，并在主干网络的基础上构建多层级局部和全局特征自适用融合网络ML GNet，设定候选窗口提取网络和ML GNet的训练损失函数；步骤3：初始化检测器各部分的网络参数以及训练过程所需的超参数；步骤4：利用反向传播算法更新检测器的权重；经过设定的训练次数得到最终的检测器。权利要求书1页说明书4页附图2页 CN 114638971 A 2022.06.17 CN 114638971 A 1.一种多层级局部和全局特征自适应融合的目标检测方法，包括下列步骤：步骤1：准备目标检测的训练数据集，包含训练图像以及对应物体标注；标注为物体所处检测框坐标及物体的类别；步骤2：选定目标检测的主干网络，搭建候选检测窗口提取网络，并在主干网络的基础上构建多层级局部和全局特征自适用融合网络MLGNet，设定候选窗口提取网络和MLGNet的训练损失函数；其中，在主干网络的基础上构建多层级局部和全局特征自适用融合网络MLGNet的方法如下：对于给定一张输入图像，经过一个主干网络生成深度特征图；对于每个候选检测窗口，分别利用六个分支分别提取多层级局部和全局特征：利用三个分支经过三个不同的卷积层生成三个不同位置的敏感特征图，基于三个不同位置的敏感特征图，利用三个不同的PSRoI 层分别提取候选窗口感兴趣区域的3 ×3,5×5,7×7大小和位置的敏感特征图，然后将三个不同大小和位置的敏感特征图通过双线性差值上采样到相同的7 ×7大小特征图；利用另外三个分支的卷积层生成一个特征图，基于该特征图，利用三个不同的RoI层分别提取候选窗口感兴趣区域的3 ×3,5×5,7×7大小全局特征图，然后将三个不同大小的全局特征图通过双线性差值上采样到相同的7 ×7大小特征图；构建特征自适应融合单元，方法为：将上六个分支生成的六个7 ×7大小特征图沿特征通道方向串接在一起，得到原始串接特征图；对于该原始串接特征图，我们进行如下操作：首先利用一个全局平均全局池化操作生成一个特征通道长度大小的特征向量；然后利用全连接层生成一个长度为6的特征向量；接着经过一个Sigmoid层对该长度为6的特征向量进行归一化；最后用归一化特征向量的六个值分别与上述六个分支对应的特征进行相乘并沿着特征通道方向串接，得到增强后的串接特征图；将增强后的串接特征图和原始串接特征图相加得到最终的输出特征图；形成多层级局部和全局特征自适用融合网络 MLGNet；步骤3：初始化检测器各部分的网络参数以及训练过程所需的超参数；步骤4：利用反向传播算法更新检测器的权重；经过设定的训练次数得到最终的检测器。权　利　要　求　书 1/1 页 2 CN 114638971 A 2多层级局部和全局特征自适应融合的目标检测方法技术领域 [0001]本发明涉及智能系统(如智能驾驶、智能监控、智能交互等)中目标检测方法，特别是基于深度学习的目标检测方法。背景技术 [0002]目标检测主要指定位图像或视频中存在的物体，并给出物体的具体类别。近年来，基于深度卷积神经网络技术，物体检测取得了巨大的成功，广泛应用在智能驾驶、智能交通、智能搜索、智能认证等领域。例如，智能汽车需要在决策控制之前检测出前方的障碍物，而智能交互系统需要在识别相关手势和指令之前检测出需要交互的人。 [0003]由于深度卷积神经网络强大的特征表达能力，深度卷积神经网络在图像分类、目标检测、语义分割等任务中取得了巨大的成功。对于基于深度学习的目标检测而言，相关方法主要包括两类：两阶段方法和单阶段方法。与单阶段方法相比，两阶段方法具有更高的检测性能。本专利主要关注两阶段方法。两阶段方法主要包含两个部分：候选检测窗口提取网络和候选检测窗口分类、回归网络。为了粗略地提取图像中可能存在的物体，候选窗口提取网络生成一定数量的候选检测窗口。基于这些候选检测窗口，候选窗口分类、回归网络对这些候选检测窗口进行进一步分类和回归，得到检测窗口最终的位置和分类得分。 [0004]在两阶段方法中，比较有代表性的工作是Faster R‑CNN[1]。它通过共享基础网络进行候选窗口的提取和分类。 Faster R‑CNN采用RoI池化层提取候选检测窗口感兴趣区域的全局特征进行候选检测窗口的分类和回归。因而，它忽略了物体的局部特征。事实上，对于遮挡物体而言，局部特征更有利于提升检测性能。与此同时， RoI池化层将原始检测框区域特征图缩放成固定大小，对物体的形变不够鲁棒。为了将局部信息编码到特征中， Dai等人[2]提出了位置敏感的感兴趣池化层PSRoI。具体地， PSRoI将每个感兴趣区域分成k ×k大小的子区域。每个子区域的响应值由位置敏感的特征图对应通道上相应区域的平均相应值。同Faster R‑CNN相比，基于PSRoI的目标检测器R ‑FCN具有相似的检测性能，但具有更快的检测速度。 Zhu等人[3]将RoI层和PSRoI层集成在一起充分利用全局和局部特征。然后，该方法缺乏挖掘多尺度特征以及如何将这些局部和全局特征进行自适应融合。为了编码多尺度特征， He等人[4]提出利用空间金字塔结构融合多尺度特征。该方法对物体形变更加鲁棒。 Zhao等人[5]采用相似的结构提升语义分割的性能。 Liu等人[6]将空间金字塔结构的相关思想用于单阶段目标检测。 Wang等人[7]采用三维卷积操作融合多尺度特征。 [0005]参考文献： [0006][1]S.Ren,K.He,R.Girshick,and J.Sun,Faster R‑CNN:Towards Real‑Time Object Detection with Region Proposal Networks,IEEE Trans.Pattern Analysis and Machine Intelligence,vo l.39,no.6,pp.1137‑1149,2017. [0007][2]J.Dai,Y.Li,K.He,and J.Sun,R‑FCN:Object Detection via Region‑based Fully Convolutional Networks,Proc.Advances in Neural Information Processing Systems,2015.说　明　书 1/4 页 3 CN 114638971 A 3

专利 多层级局部和全局特征自适应融合的目标检测方法

专利多层级局部和全局特征自适应融合的目标检测方法