专利 一种面向跨模态检索的数据采集处理方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210260897.6 (22)申请日 2022.03.16 (71)申请人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号 (72)发明人纪守领　何平　白熠阳　张旭鸿　杜天宇　蒲誉文　 (74)专利代理机构杭州天勤知识产权代理有限公司 33224 专利代理师曹兆霞 (51)Int.Cl. G06K 9/62(2022.01) G06V 10/74(2022.01) G06V 10/44(2022.01) G06F 40/30(2020.01)G06F 16/215(2019.01) G06F 16/22(2019.01) G06F 16/28(2019.01) (54)发明名称一种面向跨模态检索的数据采集处理方法及系统 (57)摘要本发明公开了一种面向跨模态检索的数据采集处理方法和系统，包括：对目标开源数据网络进行分布式并行采集多模态数据；对文本模态数据进行特殊字符和不可见字符的清洗后，对清洗后的文本模态数据与图像模态数据进行不同消息队列存储；利用特征提取模型分别对消息队列中的每条文本和每个图像进行特征提取得到文本特征和图像特征，根据文本特征和图像特征的相似度匹配筛选得到图 ‑文组合，并以图 ‑文组合的图像特征和文本特征作为索引进行数据库存储；检索时，依据上传数据与数据库中的图 ‑文组合的相似度筛选匹配的图 ‑文组合作为上传数据的检索结果并返回，该方法和系统能够实现图片‑文本数据进行高质量的跨模态检索。权利要求书2页说明书7页附图3页 CN 114611618 A 2022.06.10 CN 114611618 A 1.一种面向跨模态检索的数据采集处理方法，其特征在于，包括：对目标开源数据网络进行分布式并行采集多模态数据，其中，多模态数据包括文本模态数据和图像模态数据；对文本模态数据进行特殊字符和不可见字符的清洗后，对清洗后的文本模态数据与图像模态数据进行不同消息队列存储；利用特征提取模型分别对消息队列中的每条文本和每个图像进行特征提取得到文本特征和图像特征，根据文本特征和图像特征的相似度匹配筛选得到图 ‑文组合，并以图 ‑文组合的图像特征和文本特征作为索引进行数据库存储；检索时，依据上传数据与数据库中的图 ‑文组合的相似度筛选匹配的图 ‑文组合作为上传数据的检索结果并返回，其中，上传数据包括文本数据、图像数据。 2.根据权利要求1所述的面向跨模态检索的数据采集处理方法，其特征在于，对文本模态数据进行不可见字符的清洗，包括：将文本模态数据中不可见字符过滤掉，其中，不可见字符包括零长度空格、零长度连接符、零长度非连接符。 3.根据权利要求1所述的面向跨模态检索的数据采集处理方法，其特征在于，对文本模态数据进行特殊字符的清洗，包括：当特殊字符为象形字形时，依据象形字表呈现的象形字形与原始字符的映射关系进行象形字形到原始字符的替换；当特殊字符为删除性字符时，根据不同删除性字符采用不同清洗方式，包括：当删除性字符为退格字符，则将退格字符与该退格字符前一字符同时删除；当删除性字符为删除字符，则将删除字符与该删除字符后一字符同时删除；当删除性字符为回车字符，则将该回车字符后的所有字符从段落的开始符之后进行覆盖。 4.根据权利要求1所述的面向跨模态检索的数据采集处理方法，其特征在于，对文本模态数据进行特殊字符的清洗，包括：当特殊字符为显示顺序字符时，根据控制改变显示顺序字符的序列，进行自底向上的递归恢复，最终复原原始文本，其中，显示顺序字符包括： PDF字符、 LRE字符、 RLE字符、 LRO字符、 RLO字符、 PDI字符、 LRI字符、 RLI字符，控制改变显示顺序字符的序列为[LRO， LRI， RLO， LRI，字符串1， P DI， LRI，字符串2， P DI， PDF， PDI， PDF]；采用自底向上的递归恢复复原原始文本，包括： (a)采取非贪婪匹配算法，匹配形如[LRO， LRI， RLO， LRI，字符串1， PDI， LRI，字符串2， PDI， PDF， PDI， PDF]的字符串序列，将该字符串序列替换为形如[字符串2，字符串1]的序列； (b)重复步骤(a)直至文本模态数据中不存在所述字符串序列； (c)若剩余文本模态数据中仍存在显示顺序字符，则将所有显示顺序字符删除。 5.根据权利要求1所述的面向跨模态检索的数据采集处理方法，其特征在于，所述根据文本特征和图像特征的相似度匹配筛选得到图 ‑文组合，包括：计算文本特征与所有图像特征的相似度，并筛选相似度最大的图像特征与文本特征匹配，形成图 ‑文组合。 6.根据权利要求1所述的面向跨模态检索的数据采集处理方法，其特征在于，所述依据上传数据与数据库中的图 ‑文组合的相似度筛选匹配的图 ‑文组合作为上传数据的检索结权　利　要　求　书 1/2 页 2 CN 114611618 A 2果，包括：当上传数据为文本数据时，利用特征提取模型提取文本数据的文本特征，将该文本特征与数据库中的文本特征进行相似度计算，并将数据库中相似度最大的文本特征作为匹配的文本特征，匹配的文本特征所属的图 ‑文组合作为检索结果；当上传数据为图像数据时，利用特征提取模型提取图像数据的图像特征，将该图像特征与数据库中的图像特征进行相似度计算，并将数据库中相似度最大的图像特征作为匹配的图像特征，匹配的图像特征所属的图 ‑文组合作为检索结果。 7.根据权利要求1或6所述的面向跨模态检索的数据采集处理方法，其特征在于，所述特征提取模块采用对比文本 ‑图片预训练模型。 8.根据权利要求1或5或6所述的面向跨模态检索的数据采集处理方法，其特征在于，文本特征和图像特征的相似度为余弦相似度或L2距离；文本特征和文本特征的相似度为余弦相似度或L2 距离；图像特征和图像特征的相似度为余弦相似度或L2 距离。 9.一种面向跨模态检索的数据采集处理系统，其特征在于，包括：采集模块，用于对目标开源数据网络进行分布式并行采集多模态数据，其中，多模态数据包括文本模态数据和图像模态数据；清洗模块，用于对文本模态数据进行特殊字符和不可见字符的清洗后，对清洗后的文本模态数据与图像模态数据进行不同消息队列存储；特征提取模块，用于利用特征提取模型分别对消息队列中的每条文本和每个图像进行特征提取得到文本特征和图像特征；匹配模块，用于根据文本特征和图像特征的相似度匹配筛选得到图 ‑文组合，并以图 ‑ 文组合的图像特征和文本特征作为索引进行数据库存储；检索模块，用于依据上传数据与数据库中的图 ‑文组合的相似度筛选匹配的图 ‑文组合作为上传数据的检索结果并返回，其中，上传数据包括文本数据、图像数据。权　利　要　求　书 2/2 页 3 CN 114611618 A 3

专利 一种面向跨模态检索的数据采集处理方法及系统

专利一种面向跨模态检索的数据采集处理方法及系统