(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210277660.9
(22)申请日 2022.03.21
(71)申请人 天津大学
地址 300072 天津市南 开区卫津路9 2号
(72)发明人 曹家乐 庞彦伟
(74)专利代理 机构 天津市北洋 有限责任专利代
理事务所 12 201
专利代理师 程毓英
(51)Int.Cl.
G06V 10/44(2022.01)
G06V 10/25(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
多层级局部和全局特征自适应融合的目标
检测方法
(57)摘要
本发明涉及一种多层级局部和全局特征自
适应融合的目标检测方法, 包括下列步骤: 步骤
1: 准备目标检测的训练数据集; 步骤2: 选定目标
检测的主干网络, 搭建候选检测窗口提取网络,
并在主干网络的基础上构建多层级局部和全局
特征自适用融合网络ML GNet, 设定候选窗口提取
网络和ML GNet的训练损失函数; 步骤3: 初始化检
测器各部分的网络参数以及训练过程所需的超
参数; 步骤4: 利用反向传播算法更新检测器的权
重; 经过设定的训练次数得到最终的检测器 。
权利要求书1页 说明书4页 附图2页
CN 114638971 A
2022.06.17
CN 114638971 A
1.一种多层级局部和全局特 征自适应融合的目标检测方法, 包括下列步骤:
步骤1: 准备目标检测的训练数据集, 包含训练图像以及对应物体标注; 标注为物体所
处检测框坐标及物体的类别;
步骤2: 选定目标检测的主干网络, 搭建候选检测窗口提取网络, 并在主干网络的基础
上构建多层 级局部和全局特征自适用融合网络MLGNet, 设定候选窗口提取网络和MLGNet的
训练损失函数;
其中, 在主干网络的基础上构建多层级局部和全局特征自适用融合网络MLGNet的方法
如下:
对于给定一张输入图像, 经过一个主干网络生成深度特征图; 对于每个候选检测窗口,
分别利用六个分支分别提取多层级局部和全局特征: 利用三个分支经过三个不同的卷积层
生成三个不同位置的敏感特征图, 基于三个不同位置的敏感特征图, 利用三个不同的PSRoI
层分别提取候选窗口感兴趣区域的3 ×3,5×5,7×7大小和位置的敏感特征图, 然后将三个
不同大小和位置的敏感特征图通过双线性差值上采样到相同的7 ×7大小特征图; 利用另外
三个分支的卷积层生成一个特征图, 基于该特征图, 利用三个不同的RoI层分别提取候选窗
口感兴趣区域的3 ×3,5×5,7×7大小全局特征图, 然后将三个不同大小的全局特征图通过
双线性差值上采样到相同的7 ×7大小特征图;
构建特征自适应融合单元, 方法为: 将上六个分支生成的六个7 ×7大小特征图沿特征
通道方向串接在一起, 得到原始串接特征图; 对于该原始串接特征图, 我们进行如下操作:
首先利用一个全局平均全局池化操作生成一个特征通道长度大小的特征向量; 然后利用全
连接层生成一个长度为6的特征向量; 接着经过一个Sigmoid层对该长度为6的特征向量进
行归一化; 最后用归一化特征向量的六个值分别与上述六个分支对应的特征进行相乘并沿
着特征通道方向串接, 得到增强后的串接特征图; 将增强后的串接特征图和原始串接特征
图相加得到最终的输出 特征图;
形成多层级局部和全局特 征自适用融合网络 MLGNet;
步骤3: 初始化检测器各部分的网络参数以及训练过程所需的超参数;
步骤4: 利用 反向传播算法更新检测器的权重; 经过设定的训练次数得到最终的检测
器。权 利 要 求 书 1/1 页
2
CN 114638971 A
2多层级局部和全局特征自适应融合的目标 检测方法
技术领域
[0001]本发明涉及智能系统(如智能驾驶、 智能监控、 智能交互等)中 目标检测方法, 特别
是基于深度学习的目标检测方法。
背景技术
[0002]目标检测主要指定位图像或视频中存在的物体, 并给出物体的具体类别。 近年来,
基于深度卷积神经网络技术, 物体检测取得了巨大的成功, 广泛应用在智能驾驶、 智能交
通、 智能搜索、 智能认证等领域。 例如, 智能汽 车需要在决策控制之前检测出前方的障碍物,
而智能交 互系统需要在识别相关手势和指令之前检测出需要交 互的人。
[0003]由于深度卷积神经网络强大的特征表达能力, 深度卷积神经网络在图像分类、 目
标检测、 语义分割等任务中取得了巨大的成功。 对于基于深度学习的目标检测而言, 相关方
法主要包括两类: 两阶段方法和单阶段方法。 与单阶段方法相比, 两阶段方法具有 更高的检
测性能。 本专利主要关注两阶段方法。 两阶段方法主要包含两个部 分: 候选检测窗口提取网
络和候选检测窗口分类、 回归网络。 为了粗略地提取图像中可能存在的物体, 候选窗口提取
网络生成一定数量的候选检测窗口。 基于这些候选检测窗口, 候选窗口分类、 回归网络对这
些候选检测窗口进行进一 步分类和回归, 得到检测窗口最终的位置和分类得分。
[0004]在两阶段方法中, 比较有代表性的工作是Faster R‑CNN[1]。 它通过共享基础网络
进行候选 窗口的提取和分类。 Faster R‑CNN采用RoI池化层提取候选检测窗口感兴趣区域
的全局特征进行候选检测窗口的分类和回归。 因而, 它忽略了物体的局部特征。 事实上, 对
于遮挡物体而言, 局部特征更有利于提升检测性能。 与此同时, RoI池化层将原始检测框区
域特征图缩放成固定大小, 对物体的形变不够鲁棒。 为了将局部信息编码到特征中, Dai等
人[2]提出了位置敏感 的感兴趣池化层PSRoI。 具体地, PSRoI将每个感兴趣区域分成k ×k大
小的子区域。 每个子区域的响应值由位置敏感的特征图对应通道上相应区域的平均相应
值。 同Faster R‑CNN相比, 基于PSRoI的目标检测器R ‑FCN具有相似的检测性能, 但具有更快
的检测速度。 Zhu等人[3]将RoI层和PSRoI层集成在一起充分利用全局和局部特征。 然后, 该
方法缺乏挖掘多尺度特征以及如何将这些局部和全局特征进 行自适应融合。 为了编 码多尺
度特征, He等人[4]提出利用空间金字塔结构融合多尺度特征。 该方法对物体形变更加鲁棒。
Zhao等人[5]采用相似的结构提升语义分割的性能。 Liu等人[6]将空间金字塔结构的相关思
想用于单阶段目标检测。 Wang等人[7]采用三维卷积 操作融合多尺度特 征。
[0005]参考文献:
[0006][1]S.Ren,K.He,R.Girshick,and J.Sun,Faster R‑CNN:Towards Real‑Time
Object Detection with Region Proposal Networks,IEEE Trans.Pattern Analysis
and Machine Intelligence,vo l.39,no.6,pp.1137‑1149,2017.
[0007][2]J.Dai,Y.Li,K.He,and J.Sun,R‑FCN:Object Detection via Region‑based
Fully Convolutional Networks,Proc.Advances in Neural Information Processing
Systems,2015.说 明 书 1/4 页
3
CN 114638971 A
3
专利 多层级局部和全局特征自适应融合的目标检测方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:11:35上传分享