(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211014234.2
(22)申请日 2022.08.23
(71)申请人 江西软云科技股份有限公司
地址 330000 江西省南昌市高新 技术产业
开发区京东大道698号浙江大学国家
大学科技园C区3楼
(72)发明人 赵聪 唐旭 富雁
(74)专利代理 机构 南昌旭瑞知识产权代理事务
所(普通合伙) 36150
专利代理师 彭琰
(51)Int.Cl.
G06V 30/416(2022.01)
G06V 30/19(2022.01)
G06T 7/73(2017.01)
G06F 17/16(2006.01)G06T 7/60(2017.01)
(54)发明名称
一种题目识别映射方法、 系统、 存储介质及
设备
(57)摘要
本发明提供了一种题目识别映射方法、 系
统、 存储介质及设备, 该方法包括: 获取一记载有
文字内容信息与题目矩形位置信息的初始图像,
以及一映射图像; 将映射图像中的每一文字行与
初始图像中所有文字行进行字 符相似度计算; 得
到一多维的稀 疏矩阵, 对稀 疏矩阵进行求解以得
到映射图像中的每一文字行与初始图像中所有
文字行的位置匹配集合; 根据位置匹配集合中的
题目信息, 转换得到初始图像中若干题目与映射
图像中若干文字行的内容对应集合; 根据初始图
像中若干题目与映射图像中若干文字行的内容
对应集合, 计算得出初始图像中若干题目在映射
图像中对应的矩形位置信息。 本发 明能够通过行
文字内容匹配进行图片中题目位置的确定 。
权利要求书4页 说明书15页 附图2页
CN 115457584 A
2022.12.09
CN 115457584 A
1.一种题目识别映射方法, 其特 征在于, 所述方法包括:
获取一记载有 文字内容信息与题目矩形位置信息的初始图像, 以及一映射图像;
将所述映射图像中的每一文字行与所述初始图像中所有 文字行进行字符相似度计算;
基于所述字符相似度计算的计算结果, 得到一多维的稀疏矩阵, 对所述稀疏矩阵进行
求解以得到所述映射图像中的每一文字行与所述初始图像中所有 文字行的位置匹配集 合;
根据所述位置匹配集合中的题目信 息, 转换得到所述初始图像中若干题目与 所述映射
图像中若干文字行的内容对应集 合;
根据所述初始图像中若干题目与 所述映射图像中若干文字行的内容对应集合, 计算得
出所述初始图像中若干题目在所述映射图像中对应的矩形位置信息 。
2.根据权利要求1所述的题目识别映射方法, 其特征在于, 获取一记载有文字 内容信息
与题目矩形位置信息的初始图像, 对所述初始图像进行识别以得到一映射图像的步骤中:
所 述 初 始 图 像 为 O , 长 宽 记 为
, 所 述 初 始 图 像 中 有 M 道 题 目
, 每一道题目
存储了文字内容信息和题目矩形位置信息:
其中, 题目矩形位置信息:
,
和
是矩形左上角的位置,
是矩形长度,
是矩形高度;
文字内容信息: 所述初始图像中有T行内容
, 行内容
格式为
, 其中
为字符串,
为坐标
系信息,
为题目关联信息 。
3.根据权利要求1所述的题目识别映射方法, 其特征在于, 将所述映射图像中的每一文
字行与所述初始图像中所有 文字行进行字符相似度计算的步骤, 具体包括:
将所述映射图像P中的K行文字行中的每一行与所述初始图像O中T行内容
进行字符相似度计算;
两个字符串a, b的莱文斯 坦距离记作
:
其中
代表a,b的长度,
函数代表去除字符串a的第一个字符后的字符
串,
函数代表去除字符串b的第一个字符后的字符串,
数值越大则a,b字
符串越不匹配,
数值为0, 则两个字符串完全相等;
定义:权 利 要 求 书 1/4 页
2
CN 115457584 A
2即当
越大,两个字符串相似度越高,两个字符串完全相等,则值为1, 若
, 则两个字符串缺乏相似性。
4.根据权利要求1所述的题目识别映射方法, 其特征在于, 基于所述字符相似度计算的
计算结果, 得到一多维的稀疏矩阵, 对所述稀疏矩阵进行求解以得到所述映射图像中的每
一文字行与所述初始图像中所有 文字行的位置匹配集 合的步骤, 具体包括:
通过对所述映射图像P中的K行文字行中的每一行与所述初始图像O中T行内容进行字
符相似度
计算, 得到
维的稀疏矩阵:
求解所述稀疏矩阵, 以获取所述映射图像P中K行文字行与图片O中T行内容对应且包含
N个元素的位置匹配集合
, 位置匹配集合当
中每一个匹配代表映射图像某一行文字与初始图像某一行文字的匹配组合, 该位置匹配集
合X满足如下 条件:
。
5.根据权利要求1所述的题目识别映射方法, 其特征在于, 根据 所述位置匹配集合中的
题目信息, 转换得到所述初始图像中若干题目与所述映射图像中若干文字行的内容对应集
合的步骤, 具体包括:
根据集合
中
的题目信息, 其中,
代表在初 始图像0中的一个文字行, 转换得到所述初 始图像O的M道题目与所述映射图
像P的K行内容的内容对应集 合;
其中, 任意一道题目q, 有 g个元素的内容对应集合
, 内容对应集合的元素为映射图像中的某一个文字行和与其对应的初始图像中的某一个文权 利 要 求 书 2/4 页
3
CN 115457584 A
3
专利 一种题目识别映射方法、系统、存储介质及设备
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:04:53上传分享