(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210260897.6
(22)申请日 2022.03.16
(71)申请人 浙江大学
地址 310058 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 纪守领 何平 白熠阳 张旭鸿
杜天宇 蒲誉文
(74)专利代理 机构 杭州天勤知识产权代理有限
公司 33224
专利代理师 曹兆霞
(51)Int.Cl.
G06K 9/62(2022.01)
G06V 10/74(2022.01)
G06V 10/44(2022.01)
G06F 40/30(2020.01)G06F 16/215(2019.01)
G06F 16/22(2019.01)
G06F 16/28(2019.01)
(54)发明名称
一种面向跨模态检索的数据采集处理方法
及系统
(57)摘要
本发明公开了一种面向跨模态检索的数据
采集处理方法和系统, 包括: 对目标开源数据网
络进行分布式并行采集多模态数据; 对文本模态
数据进行特殊字符和不可见字 符的清洗后, 对清
洗后的文本模态数据与图像模态数据进行不同
消息队列存储; 利用特征提取模 型分别对消息队
列中的每条文本和每个图像进行特征提取得到
文本特征和图像特征, 根据文本特征和图像特征
的相似度匹配筛选得到图 ‑文组合, 并以图 ‑文组
合的图像特征和文本特征作为索引进行数据库
存储; 检索时, 依据上传数据与数据库中的图 ‑文
组合的相似度筛选匹配的图 ‑文组合作为上传数
据的检索结果并返回, 该方法和系统能够实现图
片‑文本数据进行高质量的跨模态检索。
权利要求书2页 说明书7页 附图3页
CN 114611618 A
2022.06.10
CN 114611618 A
1.一种面向跨模态检索的数据采集处 理方法, 其特 征在于, 包括:
对目标开源数据网络进行分布式并行采集多模态数据, 其中, 多模态数据包括文本模
态数据和图像模态数据;
对文本模态数据进行特殊字符和不可见字符的清洗后, 对清洗后的文本模态数据与图
像模态数据进行不同消息队列存 储;
利用特征提取模型分别对消息队列中的每条文本和每个图像进行特征提取得到文本
特征和图像特征, 根据文本特征和图像特征的相似度匹配筛选得到图 ‑文组合, 并以图 ‑文
组合的图像特 征和文本特 征作为索引进行 数据库存 储;
检索时, 依据上传数据与数据库中的图 ‑文组合的相似度筛选匹配的图 ‑文组合作为上
传数据的检索结果并返回, 其中, 上传数据包括文本数据、 图像数据。
2.根据权利要求1所述的面向跨模态检索的数据采集处理方法, 其特征在于, 对文本模
态数据进行不可 见字符的清洗, 包括:
将文本模态数据中不可见字符过滤掉, 其中, 不可见字符包括零长度空格、 零长度连接
符、 零长度非连接符。
3.根据权利要求1所述的面向跨模态检索的数据采集处理方法, 其特征在于, 对文本模
态数据进行 特殊字符的清洗, 包括:
当特殊字符为象形字形时, 依据象形字表呈现的象形字形与原始字符的映射关系 进行
象形字形到原 始字符的替换;
当特殊字符为删除性字符时, 根据不同删除性字符采用不同清洗方式, 包括: 当删除性
字符为退格字符, 则将退格字符与该退格字符前一字符同时删除; 当删除性字符为删除字
符, 则将删除字符与该删除字符后一字符同时删除; 当删除性字符为回车字符, 则将该回车
字符后的所有字符从段落的开始符 之后进行覆盖 。
4.根据权利要求1所述的面向跨模态检索的数据采集处理方法, 其特征在于, 对文本模
态数据进行 特殊字符的清洗, 包括:
当特殊字符为显示顺序字符时, 根据控制改变显示顺序字符的序列, 进行自底向上的
递归恢复, 最终复原原始文本, 其中, 显示顺序字 符包括: PDF字 符、 LRE字 符、 RLE字 符、 LRO字
符、 RLO字符、 PDI字符、 LRI字符、 RLI字符, 控制改变显示顺序字符的序列为[LRO, LRI, RLO,
LRI, 字符串1, P DI, LRI, 字符串2, P DI, PDF, PDI, PDF];
采用自底向上的递归 恢复复原原始文本, 包括:
(a)采取非贪婪匹配算法, 匹配形如[LRO, LRI, RLO, LRI, 字符串1, PDI, LRI, 字符串2,
PDI, PDF, PDI, PDF]的字符串序列, 将该字符串序列替换为形如[字符串2, 字符串1]的序列;
(b)重复步骤(a)直至文本模态数据中不存在所述字符串序列;
(c)若剩余文本模态数据中仍存在显示 顺序字符, 则将所有显示 顺序字符删除。
5.根据权利要求1所述的面向跨模态检索的数据采集处理方法, 其特征在于, 所述根据
文本特征和图像特 征的相似度匹配筛 选得到图 ‑文组合, 包括:
计算文本特征与所有图像特征的相似度, 并筛选相似度最大的图像特征与文本特征匹
配, 形成图 ‑文组合。
6.根据权利要求1所述的面向跨模态检索的数据采集处理方法, 其特征在于, 所述依据
上传数据与数据库中的图 ‑文组合的相似度筛选匹配的图 ‑文组合作为上传数据的检索结权 利 要 求 书 1/2 页
2
CN 114611618 A
2果, 包括:
当上传数据为文本数据时, 利用特征提取模型提取文本数据的文本特征, 将该文本特
征与数据库中的文本特征进行相似度计算, 并将数据库中相似度最大的文本特征作为匹配
的文本特 征, 匹配的文本特 征所属的图 ‑文组合作为检索结果;
当上传数据为图像数据时, 利用特征提取模型提取图像数据的图像特征, 将该图像特
征与数据库中的图像特征进行相似度计算, 并将数据库中相似度最大的图像特征作为匹配
的图像特 征, 匹配的图像特 征所属的图 ‑文组合作为检索结果。
7.根据权利要求1或6所述的面向跨模态检索的数据采集处理方法, 其特征在于, 所述
特征提取模块采用对比文本 ‑图片预训练模型。
8.根据权利要求1或5或6所述的面向跨模态检索的数据采集处理方法, 其特征在于, 文
本特征和图像特征的相似度为余弦相似度或L2距离; 文本特征和文本特征的相似度为余弦
相似度或L2 距离; 图像特 征和图像特 征的相似度为 余弦相似度或L2 距离。
9.一种面向跨模态检索的数据采集处 理系统, 其特 征在于, 包括:
采集模块, 用于对目标开源数据网络进行分布式并行采集多模态数据, 其中, 多模态数
据包括文本模态数据和图像模态数据;
清洗模块, 用于对文本模态数据进行特殊字符和不可见字符的清洗后, 对清洗后的文
本模态数据与图像模态数据进行不同消息队列存 储;
特征提取模块, 用于利用特征提取模型分别对消息队列中的每条文本和每个图像进行
特征提取得到文本特 征和图像特 征;
匹配模块, 用于根据文本特征和图像特征的相似度匹配筛选得到图 ‑文组合, 并以图 ‑
文组合的图像特 征和文本特 征作为索引进行 数据库存 储;
检索模块, 用于依据 上传数据与数据库中的图 ‑文组合的相似度筛选匹配的图 ‑文组合
作为上传数据的检索结果并返回, 其中, 上传数据包括文本数据、 图像数据。权 利 要 求 书 2/2 页
3
CN 114611618 A
3
专利 一种面向跨模态检索的数据采集处理方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:11:40上传分享