专利 一种题目识别映射方法、系统、存储介质及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211014234.2 (22)申请日 2022.08.23 (71)申请人江西软云科技股份有限公司地址 330000 江西省南昌市高新技术产业开发区京东大道698号浙江大学国家大学科技园C区3楼 (72)发明人赵聪　唐旭　富雁　 (74)专利代理机构南昌旭瑞知识产权代理事务所(普通合伙) 36150 专利代理师彭琰 (51)Int.Cl. G06V 30/416(2022.01) G06V 30/19(2022.01) G06T 7/73(2017.01) G06F 17/16(2006.01)G06T 7/60(2017.01) (54)发明名称一种题目识别映射方法、系统、存储介质及设备 (57)摘要本发明提供了一种题目识别映射方法、系统、存储介质及设备，该方法包括：获取一记载有文字内容信息与题目矩形位置信息的初始图像，以及一映射图像；将映射图像中的每一文字行与初始图像中所有文字行进行字符相似度计算；得到一多维的稀疏矩阵，对稀疏矩阵进行求解以得到映射图像中的每一文字行与初始图像中所有文字行的位置匹配集合；根据位置匹配集合中的题目信息，转换得到初始图像中若干题目与映射图像中若干文字行的内容对应集合；根据初始图像中若干题目与映射图像中若干文字行的内容对应集合，计算得出初始图像中若干题目在映射图像中对应的矩形位置信息。本发明能够通过行文字内容匹配进行图片中题目位置的确定。权利要求书4页说明书15页附图2页 CN 115457584 A 2022.12.09 CN 115457584 A 1.一种题目识别映射方法，其特征在于，所述方法包括：获取一记载有文字内容信息与题目矩形位置信息的初始图像，以及一映射图像；将所述映射图像中的每一文字行与所述初始图像中所有文字行进行字符相似度计算；基于所述字符相似度计算的计算结果，得到一多维的稀疏矩阵，对所述稀疏矩阵进行求解以得到所述映射图像中的每一文字行与所述初始图像中所有文字行的位置匹配集合；根据所述位置匹配集合中的题目信息，转换得到所述初始图像中若干题目与所述映射图像中若干文字行的内容对应集合；根据所述初始图像中若干题目与所述映射图像中若干文字行的内容对应集合，计算得出所述初始图像中若干题目在所述映射图像中对应的矩形位置信息。 2.根据权利要求1所述的题目识别映射方法，其特征在于，获取一记载有文字内容信息与题目矩形位置信息的初始图像，对所述初始图像进行识别以得到一映射图像的步骤中：所述初始图像为 O ，长宽记为，所述初始图像中有 M 道题目，每一道题目存储了文字内容信息和题目矩形位置信息：其中，题目矩形位置信息： , 和是矩形左上角的位置, 是矩形长度，是矩形高度；文字内容信息：所述初始图像中有T行内容，行内容格式为，其中为字符串，为坐标系信息，为题目关联信息。 3.根据权利要求1所述的题目识别映射方法，其特征在于，将所述映射图像中的每一文字行与所述初始图像中所有文字行进行字符相似度计算的步骤，具体包括：将所述映射图像P中的K行文字行中的每一行与所述初始图像O中T行内容进行字符相似度计算；两个字符串a， b的莱文斯坦距离记作 : 其中代表a,b的长度，函数代表去除字符串a的第一个字符后的字符串，函数代表去除字符串b的第一个字符后的字符串，数值越大则a,b字符串越不匹配，数值为0，则两个字符串完全相等；定义：权　利　要　求　书 1/4 页 2 CN 115457584 A 2即当越大,两个字符串相似度越高,两个字符串完全相等,则值为1, 若，则两个字符串缺乏相似性。 4.根据权利要求1所述的题目识别映射方法，其特征在于，基于所述字符相似度计算的计算结果，得到一多维的稀疏矩阵，对所述稀疏矩阵进行求解以得到所述映射图像中的每一文字行与所述初始图像中所有文字行的位置匹配集合的步骤，具体包括：通过对所述映射图像P中的K行文字行中的每一行与所述初始图像O中T行内容进行字符相似度计算，得到维的稀疏矩阵：求解所述稀疏矩阵，以获取所述映射图像P中K行文字行与图片O中T行内容对应且包含 N个元素的位置匹配集合，位置匹配集合当中每一个匹配代表映射图像某一行文字与初始图像某一行文字的匹配组合，该位置匹配集合X满足如下条件: 。 5.根据权利要求1所述的题目识别映射方法，其特征在于，根据所述位置匹配集合中的题目信息，转换得到所述初始图像中若干题目与所述映射图像中若干文字行的内容对应集合的步骤，具体包括：根据集合中的题目信息，其中，代表在初始图像0中的一个文字行，转换得到所述初始图像O的M道题目与所述映射图像P的K行内容的内容对应集合；其中，任意一道题目q，有 g个元素的内容对应集合，内容对应集合的元素为映射图像中的某一个文字行和与其对应的初始图像中的某一个文权　利　要　求　书 2/4 页 3 CN 115457584 A 3

专利 一种题目识别映射方法、系统、存储介质及设备

专利一种题目识别映射方法、系统、存储介质及设备