专利 一种单样本学习的视频目标跟踪方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211108906.6 (22)申请日 2022.09.13 (71)申请人无锡东如科技有限公司地址 214029 江苏省无锡市经济开发区高浪东路999-8-D2-201-2 28 (72)发明人曹东　 (74)专利代理机构苏州国诚专利代理有限公司 32293 专利代理师陈君名 (51)Int.Cl. G06T 7/246(2017.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/26(2022.01)G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种单样本学习的视频目标跟踪方法 (57)摘要本发明公开了一种单样本学习的视频目标跟踪方法，视频图像目标物体语义分割数据集构造与图像语义分割模型界定，构造图像帧序列感知特征提取模块，单样本学习信息抽取模块的构造，分割跟踪模块的构造，对后续帧图像分割推理，该模块将分割跟踪模块输出的最优分割编码作为输入，分割解码器的最终输出为多通道目标语义分割结果。本发明所述的一种单样本学习的视频目标跟踪方法，结合预训练的矢量化表示，在推理过程中设计了特定于目标物体的模型参数学习，更好地泛化了目标物体外观信息，实现了现有最优的动态目标跟踪，从而实现智能机器人最优自主动作规划。权利要求书3页说明书15页附图1页 CN 115393400 A 2022.11.25 CN 115393400 A 1.一种单样本学习的视频目标跟踪方法，其特征在于：包括以下操作步骤： S1：模型构造：视频图像目标物体语义分割数据集构造与图像语义分割模型界定； S2：模块构造：构造图像帧序列感知特征提取模块； S3：样本模块构造：单样本学习信息抽取模块的构造； S4：跟踪模块构造：分割跟踪模块的构造； S5：图像分割推理：基于首帧图像的单样本学习信息抽取模块和分割跟踪模块对后续帧图像的分割推理； S6：输出结果：多通道目标分割单元的构造，该模块将分割跟踪模块输出的最优分割编码作为输入，分割解码器的最终输出为多通道目标语义分割结果。 2.根据权利要求1所述的一种单样本学习的视频目标跟踪方法，其特征在于：所述S1步骤中具体包括以下操作步骤： A1：构造半监督图像分割数据集； A2：在视频目标跟踪时间序列的图像分割数据集中，目标物体仅由第一帧中给出的参考目标前景与背景分割标注的标签定义，针对一个特定视频序列往往是仅仅给出其第一帧图像的语义分割标注标签，然后需要在每个后续帧中进行分割目标的推断工作； A3：基于上述数据集特征，我们界定视频目标分割框架为其中表示可学习的参数，在模型训练过程中通过学习获得； A4：视频目标跟踪采用视频图像分割方法实现为端到端网络。 3.根据权利要求1所述的一种单样本学习的视频目标跟踪方法，其特征在于：所述S2步骤中具体包括以下操作步骤： B1：图像帧序列感知特征提取模块包括像素关联信息汇聚单元像素分类器与注意力机制单元 B2：构造像素分类器像素分类器的输入是单样本真实值标注标签Yseg1，通过对输入目标真实值标注标签Yseg1进行编码来预测单样本学习信息抽取模块的其他输入图像分割真实值标签； B3：通过在视频序列中采用推理的方法，达到自动标注下一帧新图像标签的目的，以实现包含额外帧的特征分割标签标注对(xt,Ysegt)，从而扩展了小样本学习数据集。 4.根据权利要求1所述的一种单样本学习的视频目标跟踪方法，其特征在于：所述S3步骤中具体包括以下操作步骤： C1：通过应用最速下降迭代求解，以期在精度和效率两方面取得折中； C2：所有计算采用标准神经网络操作实现，从给定的初始化开始执行N次最速下降迭代，因为最速下降的收敛是快速高效的，所以训练和推理期间设置迭代次数N＝5就可达到预期收敛效果；权　利　要　求　书 1/3 页 2 CN 115393400 A 2C3：在此新优化迭代次数设定N＝2即可达到非常理想的更新效果，且计算量降到最低而能实现实时处理； C4：构建了单样本学习信息抽取模块就可以应用于随后按时序输入的测试帧序列上，结合上一步骤的实时值更新，应用到下游处理环节作为预测的分割跟踪模块用于获得视频跟踪目标的分割编码，最后作为输入提供给分割解码器。 5.根据权利要求1所述的一种单样本学习的视频目标跟踪方法，其特征在于：所述S4步骤中具体包括以下操作步骤： D1：该分割跟踪模块深度特征图上可以进行实时轻量级运算，可预测目标分割的丰富编码信息； D2：分割跟踪模块中的模型参数是使用单样本学习信息抽取模块通过对分割跟踪模块的输出和生成的真实值标注标签之间的平方误差进行最小化计算获得的，由注意力机制单元提供的每像素重要性权重加权； D3：分割跟踪模块实现为内核大小为K＝5的卷积滤波器，中间的第一层隐藏层采用空洞卷积，扩张率Dr＝2，可以在最简计算量条件下抽取更广范围像素互信息。 6.根据权利要求1所述的一种单样本学习的视频目标跟踪方法，其特征在于：所述S5步骤中具体包括以下操作步骤： E1：基于视频序列的首帧图像，分割跟踪模块参数是针对初始输入图像Ima1结合给定真实值标注标签Yseg1通过计算获得的； E2：视频序列的图像标注 “(x1,Yseg1)对”构成用于学习分割给定目标的训练样本； E3：基于上个步骤通过直接最小化第一帧中的分割误差来预测分割跟踪模块参数，可以确保对即将到来的帧进行稳健的分割预测； E4：使用第一帧真实值标注Yseg1(即对应中的其中 )作为我们的单样本学习信息抽取模块中的标签； E5：通过对真实值标注标签Yseg1进行编码生成的多维标签，从而允许分割跟踪模块在测试帧中预测更丰富的目标分割表示； E6：达到引导单样本学习信息抽取模块最优化学习与最速收敛，实现分割跟踪模块的实时最优分割编码输出。 7.根据权利要求1所述的一种单样本学习的视频目标跟踪方法，其特征在于：所述S6步骤中具体包括以下操作步骤： F1：多通道目标分割单元的输入包括三支信息流：其一是分割跟踪模块的实时最优分割编码输出；其二是单样本学习信息抽取模块的输出其三是图像帧序列感知特征提取模块的输出；权　利　要　求　书 2/3 页 3 CN 115393400 A 3

专利 一种单样本学习的视频目标跟踪方法

专利一种单样本学习的视频目标跟踪方法