专利 一种模型训练、信息检索方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210744762.7 (22)申请日 2022.06.27 (71)申请人北京爱奇艺科技有限公司地址 100080 北京市海淀区海淀北一街2号鸿城拓展大厦1 1层1101 (72)发明人李冠楠　 (74)专利代理机构北京柏杉松知识产权代理事务所(普通合伙) 11413 专利代理师孟维娜　马敬 (51)Int.Cl. G06F 16/783(2019.01) G06F 16/78(2019.01) G06V 10/44(2022.01) G06V 10/80(2022.01) (54)发明名称一种模型训练、信息检索方法及装置 (57)摘要本发明实施例提供了一种模型训练、信息检索方法及装置，涉及数据处理技术领域。方案为：获得样本检索文本多个单元信息的样本文本特征、及样本视频数据多个单元信息的样本视觉特征；获得初始模型对各样本文本特征进行融合后的初始文本融合特征和对各样本视觉特征进行融合后的初始视觉融合特征；获得待训练模型对各样本文本特征进行融合后的调优文本融合特征和对各样本视觉特征进行融合后的调优视觉融合特征；获得初始文本融合特征与调优文本融合特征间的文本特征映射误差、初始视觉融合特征与调优视觉融合特征间的视觉特征映射误差；基于文本特征映射误差、视觉特征映射误差及样本标注，调整模型参数。本方案能检索与文本模态不同的视频数据。权利要求书3页说明书16页附图5页 CN 114969439 A 2022.08.30 CN 114969439 A 1.一种模型训练方法，其特征在于，所述方法包括：获得样本检索文本中多个单元信息的样本文本特征、以及样本视频数据中多个单元信息的样本视觉特征；将各样本文本特征和各样本视觉特征输入初始模型检测所述样本视频数据是否为所述样本检索文本的检索结果，获得所述初始模型在检测过程中对各样本文本特征进行融合后的初始文本融合特征和对各样本视觉特征进行融合后的初始视觉融合特征；将各样本文本特征和各样本视觉特征输入待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果，获得所述待训练模型在检测过程中对各样本文本特征进行融合后的调优文本融合特征和对各样本视觉特征进行融合后的调优视觉融合特征，其中，所述待训练模型为：对所述初始模型进行预训练得到的模型；获得所述初始文本融合特征与调优文本融合特征间的文本特征映射误差、所述初始视觉融合特征与调优视觉融合特征间的视觉特征映射误差；基于所述文本特征映射误差、视觉特征映射误差以及样本标注，调整所述待训练模型的模型参数，其中，所述样本标注表征所述样本视频数据是否为所述样本检索文本的检索结果的标注信息。 2.根据权利要求1所述的方法，其特征在于，在所述基于所述文本特征映射误差、视觉特征映射误差以及样本标注，调整所述待训练模型的模型参数之前，还包括：根据所述调优文本融合特征和调优视觉融合特征，获得所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差；所述基于所述文本特征映射误差、视觉特征映射误差以及样本标注，调整所述待训练模型的模型参数，包括：基于所述文本特征映射误差、视觉特征映射误差、度量误差以及样本标注，调整所述待训练模型的模型参数。 3.根据权利要求2所述的方法，其特征在于，所述根据所述调优文本融合特征和调优视觉融合特征，获得所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差，包括：计算所述调优文本融合特征和调优视觉融合特征之间的差异，作为所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差；和/或获得反映所述样本检索文本中单元信息出现频次分布的分布特征，根据所述分布特征、所述调优文本融合特征和调优视觉融合特征，获得所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差。 4.根据权利要求3所述的方法，其特征在于，所述根据所述分布特征、所述调优文本融合特征和调优视觉融合特征，获得所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差，包括：基于分布特征与调优文本融合特征之间的差异、以及分布特征与调优视觉融合特征之间的差异，生成所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差。 5.根据权利要求1所述的方法，其特征在于，所述获得所述初始文本融合特征与调优文权　利　要　求　书 1/3 页 2 CN 114969439 A 2本融合特征间的文本特征映射误差，包括：将所述初始文本融合特征映射至预设的流形空间得到初始文本映射特征，并将所述调优文本融合特征映射至所述流形空间得到调优文本映射特征；基于所述初始文本映射特征与所述调优文本映射特征间的差异，获得所述初始文本融合特征与调优文本融合特征间的文本特征映射误差。 6.根据权利要求5所述的方法，其特征在于，所述基于所述初始文本映射特征与所述调优文本映射特征间的差异，获得所述初始文本融合特征与调优文本融合特征间的文本特征映射误差，包括：确定从所述初始文本映射特征变换至所述调优文本映射特征的变换关系；根据所述初始文本融合特征、所述调优文本融合特征以及所述变换关系，生成所述初始文本融合特征与调优文本融合特征间的文本特征映射误差。 7.一种信息检索方法，其特征在于，所述方法包括：获得检索文本中多个单元信息的文本特征、以及视频数据中多个单元信息的视觉特征；将各文本特征和各视觉特征输入检索模型检测所述视频数据是否为所述检索文本的检索结果；其中，所述检索模型为：根据权利要求1 ‑6中任一项所述的方法训练得到的模型。 8.一种模型训练装置，其特征在于，所述装置包括：样本特征获得模块，用于获得样本检索文本中多个单元信息的样本文本特征、以及样本视频数据中多个单元信息的样本视觉特征；初始融合特征获得模块，用于将各样本文本特征和各样本视觉特征输入初始模型检测所述样本视频数据是否为所述样本检索文本的检索结果，获得所述初始模型在检测过程中对各样本文本特征进行融合后的初始文本融合特征和对各样本视觉特征进行融合后的初始视觉融合特征；调优融合特征获得模块，用于将各样本文本特征和各样本视觉特征输入待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果，获得所述待训练模型在检测过程中对各样本文本特征进行融合后的调优文本融合特征和对各样本视觉特征进行融合后的调优视觉融合特征，其中，所述待训练模型为：对所述初始模型进行预训练得到的模型；映射误差获得模块，用于获得所述初始文本融合特征与调优文本融合特征间的文本特征映射误差、所述初始视觉融合特征与调优视觉融合特征间的视觉特征映射误差；模型参数调整模块，用于基于所述文本特征映射误差、视觉特征映射误差以及样本标注，调整所述待训练模型的模型参数，其中，所述样本标注表征所述样本视频数据是否为所述样本检索文本的检索结果的标注信息。 9.根据权利要求8所述的装置，其特征在于，所述装置还包括：度量误差获得模块，用于在所述模型参数调整模块基于所述文本特征映射误差、视觉特征映射误差以及样本标注，调整所述待训练模型的模型参数之前，根据所述调优文本融合特征和调优视觉融合特征，获得所述待训练模型检测所述样本视频数据是否为所述样本检索文本的检索结果的度量误差；所述模型参数调整模块，具体用于基于所述文本特征映射误差、视觉特征映射误差、度量误差以及样本标注，调整所述待训练模型的模型参数。权　利　要　求　书 2/3 页 3 CN 114969439 A 3

专利 一种模型训练、信息检索方法及装置

专利一种模型训练、信息检索方法及装置