(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111261348.2
(22)申请日 2021.10.28
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 郭卉
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
代理人 熊永强 贾允
(51)Int.Cl.
G06F 16/9535(2019.01)
G06N 20/00(2019.01)
(54)发明名称
数据召回方法及装置
(57)摘要
本申请公开了一种数据召回方法及装置, 涉
及人工智能技术领域, 该方法包括: 获取搜索数
据和第一数量个待召回数据; 将 搜索数据和第一
数量个待召回数据输入预设特征表征模型进行
特征表征处理, 得到搜索数据对应的第一哈希特
征、 第一哈希特征对应的第一分段量化码本、 待
召回数据对应的第二哈希特征、 第二哈希特征对
应的第二分段量化码本; 基于第一分段量化码本
和第二分段量化码本, 从第一数量个待召回数据
中确定待筛选召回数据; 基于第一哈希特征和第
二哈希特征, 从待筛选召回数据中, 确定目标召
回数据。 利用本申请提供的技术方案可以在提升
数据召回准确率的同时, 降低数据召回运算量,
大大提升数据召回速度和效率。
权利要求书4页 说明书18页 附图8页
CN 114329174 A
2022.04.12
CN 114329174 A
1.一种数据召回方法, 其特 征在于, 所述方法包括:
获取搜索数据和第一数量个待召回数据;
将所述搜索数据和所述第一数量个待召回数据输入预设特征表征模型进行特征表征
处理, 得到所述搜索数据对应的第一哈希特征、 所述第一哈希特征对应的第一分段量化码
本、 所述第一数量个待召回数据各自对应的第二哈希特征、 所述第二哈希特征对应的第二
分段量化码本;
基于所述第 一分段量化码本和所述第 二分段量化码本, 从所述第 一数量个待召回数据
中确定第二数量个待筛 选召回数据;
基于所述第 一哈希特征和所述第 二数量个待筛选召回数据的第 二哈希特征, 从所述第
二数量个待筛 选召回数据中, 确定所述搜索数据的目标召回数据;
其中, 所述预设特征表征模型为基于标注样本数据和无标注样本数据, 对预设深度学
习模型进行哈希量 化联合训练得到的特 征表征模型。
2.根据权利要求1所述的方法, 其特征在于, 所述预设特征表征模型包括哈希特征提取
模块和量 化码本模块;
所述将所述搜索数据和所述第一数量个待召回数据输入预设特征表征模型进行特征
表征处理, 得到所述搜索数据对应的第一哈希特征、 所述第一哈希特征对应的第一分段量
化码本、 所述第一数量个待召回数据各自对应的第二哈希特征、 所述第二哈希特征对应的
第二分段量 化码本包括:
将所述搜索数据和所述第一数量个待召回数据输入所述哈希特征提取模块进行特征
提取处理, 得到所述第一哈希特 征和所述第二哈希特 征;
基于所述量化码本模块, 对所述第一哈希特征和所述第二哈希特征进行分段量化表
征, 得到所述第一分段量 化码本和所述第二分段量 化码本。
3.根据权利要求2所述的方法, 其特征在于, 所述基于所述量化码本模块, 对所述第一
哈希特征和所述第二哈希特征进 行分段量化表征, 得到所述第一分段量化码本和所述第二
分段量化码本包括:
将所述第一哈希特 征和所述第二哈希特 征输入所述 量化码本模块中;
在所述量化码本模块中, 对所述第一哈希特征和所述第二哈希特征分别进行分段处
理, 得到所述第一哈希特征在第三数量个分段下的第一分段哈希特征和所述第二哈希特征
在所述第三数量个分段 下的第二分段哈希特 征;
以及, 对每个分段下的第一分段哈希特征和第二分段哈希特征进行聚类处理, 得到在
每个分段下对应的第四数量个分段聚类特 征;
以及, 将所述第一哈希特征, 在所述第三数量个分段下对应的所述第 四数量个分段聚
类特征作为所述第一分段量化码本; 以及, 将 每个待召回数据的第二哈希特征, 在所述第三
数量个分段下对应的所述第四数量个分段聚类特征作为所述每个待召回数据的第二分段
量化码本。
4.根据权利要求3所述的方法, 其特征在于, 所述基于所述第 一分段量化码本和所述第
二分段量 化码本, 从所述第一数量个待召回数据中确定第二数量个待筛 选召回数据包括:
从所述第一哈希特征在所述第三数量个分段下对应的所述第四数量个分段聚类特征
中, 确定所述第一哈希特 征在所述第三数量个分段 下对应的第一分段量 化特征;权 利 要 求 书 1/4 页
2
CN 114329174 A
2从所述每个待召回数据的第 二哈希特征, 在所述第 三数量个分段下对应的所述第四数
量个分段聚类特征中, 确定所述每个待召回数据的第二哈希特征, 在所述第三数量个分段
下对应的第二分段量 化特征;
从所述第一数量个待召回数据中, 确定对应的第 二哈希特征在所述每个分段下对应的
第二分段量化特征与所述第一哈希特征在所述每个分段下对应的第一分段量化特征一致
的初选待召回数据;
将所述第三数量个分段下对应的初始待召回数据的交集, 作为所述第 二数量个待筛选
召回数据。
5.根据权利要求1所述的方法, 其特征在于, 所述基于所述第 一哈希特征和所述第 二数
量个待筛选召回数据的第二哈希特征, 从所述第二数量个待筛选召回数据中, 确定所述搜
索数据的目标召回数据包括:
确定所述第一哈希特征分别与所述第二数量个待筛选召回数据的第二哈希特征间的
相似度;
根据所述相似度, 从所述第二数量个待筛 选召回数据中, 确定所述目标召回数据。
6.根据权利要求1至 5任一所述的方法, 其特 征在于, 所述方法还 包括:
获取标注样本数据和无 标注样本数据;
将所述标注样本数据和所述无标注样本数据输入预设深度学习模型进行特征表征处
理, 得到所述标注样本数据和所述无 标注样本数据各自对应的第一样本哈希特 征;
基于所述第一样本哈希特 征, 确定第一哈希损失;
基于所述第一哈希损失, 训练所述预设深度学习模型, 得到初始特 征表征模型;
将所述标注样本数据和所述无标注样本数据输入所述初始特征表征模型进行特征表
征处理, 得到所述标注样本数据和所述无标注样本数据各自对应的第二样本哈希特征, 以
及所述第二样本哈希特 征对应的样本分段量 化码本;
基于所述第 二样本哈希特征和所述样本分段量化码本, 确定第 二哈希损失和目标量化
损失;
基于所述第二哈希损 失和所述目标量化损 失, 训练所述初始特征表征模型, 得到所述
预设特征表征模型。
7.根据权利要求6所述的方法, 其特征在于, 所述基于所述第 二哈希损失和所述目标量
化损失, 训练所述初始特 征表征模型, 得到所述预设特 征表征模型包括:
根据所述第二哈希损失和所述目标量 化损失, 确定目标损失;
基于所述目标损失更新所述初始特 征表征模型的模型参数;
在所述初始特征表征模型的当前累计更新 次数为目标次数的情况下, 将所述标注样本
数据和所述无标注样本数据输入更新后的初始特征表征模型进行特征表征 处理, 以更新所
述标注样本数据和所述无标注样本数据各自对应的第二样本哈希特征, 以及所述第二样本
哈希特征对应的样本分段量 化码本;
在所述初始特征表征模型的当前累计更新 次数为非 目标次数的情况下, 将所述标注样
本数据和所述无标注样本数据输入更新后的初始特征表征模型进 行特征表征处理, 以更新
所述标注样本数据和所述无 标注样本数据各自对应的第二样本哈希特 征;
基于当前的第 二样本哈希特征和当前的样本分段量化码本, 更新所述第 二哈希损失和权 利 要 求 书 2/4 页
3
CN 114329174 A
3
专利 数据召回方法及装置
文档预览
中文文档
31 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:02:43上传分享