专利 文字关键信息的提取方法及装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210267289.8 (22)申请日 2022.03.18 (65)同一申请的已公布的文献号申请公布号 CN 114359911 A (43)申请公布日 2022.04.15 (73)专利权人北京亮亮视野科技有限公司地址 100176 北京市大兴区北京经济技术开发区荣华中路19号院1号楼B座 1905、 1906室 (72)发明人张旭龙　吴斐　张立　张冰洋　杨华龙　谢晓蓓　李竺虔　罗龙　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师吴勇涛(51)Int.Cl. G06V 30/148(2022.01) G06V 40/10(2022.01) G10L 15/26(2006.01) G06V 20/40(2022.01) G06T 7/70(2017.01) G06T 7/11(2017.01) G06V 10/44(2022.01) (56)对比文件 CN 114038004 A,202 2.02.11 CN 110188755 A,2019.08.3 0 CN 113963355 A,2022.01.21 CN 113505741 A,2021.10.15 US 2021312 214 A1,2021.10.07 审查员郭东榕 (54)发明名称文字关键信息的提取方法及装置 (57)摘要本发明提供一种文字关键信息的提取方法及装置，方法包括：获取图像采集设备输入的当前场景图像，当前场景图像包括至少一个文字关联图像；识别文字关联图像所对应的文字信息；基于结构化区域模板，提取文字信息中的关键信息并输出；其中，结构化区域模板依据当前场景图像、基于语音指令确定的封闭图形轮廓位置、以及封闭图形轮廓内对应的关键字确定。通过识别得到一个开放场景下的场景图像中文字关联图像部分对应的文字信息，并结合在该场景下生成的结构化区域模板，提取得到文字新消息中的关键信息，从而不需要根据场景定制化开发，也可以得到特定场景下的图像中文字信息的关键信息对应的结构化信息，减少了人力开发的成本。权利要求书2页说明书13页附图6页 CN 114359911 B 2022.07.26 CN 114359911 B 1.一种文字关键信息的提取方法，其特征在于，包括如下步骤：获取图像采集设备输入的当前场景图像，所述当前场景图像包括至少一个文字关联图像；识别所述文字关联图像所对应的文字信息；基于结构化区域模板，提取所述文字信息中的关键信息并输出；其中，所述结构化区域模板依据当前场景图像、基于语音指令确定的封闭图形轮廓位置、以及所述封闭图形轮廓内对应的关键字确定；所述结构化区域模板通过如下步骤生成：接收并识别所述语音指令；基于所述语音指令，获取当前场景图像中的封闭图形轮廓位置；根据所述封闭图形轮廓位置，确定所述封闭图形轮廓；接收语音提示并识别所述语音提示得到关键字，并显示和保存所述关键字；其中，所述关键字用于表示所述封闭图形轮廓内的文字信息的属性；根据所述封闭图形轮廓位置以及所述关键字，基于多模态融合确定所述结构化区域模板；所述获取所述当前场景图像中的封闭图形轮廓位置包括：基于手部检测获取预定时间区间内的多个实时场景图像中每个实时场景图像所包括的手部图像；其中，所述多个实时场景图像和所述当前场景图像均处于同一个视频流中；基于多个所述手部图像进行关键点检测，获取手部关键点的位置信息；追踪得到多个所述手部关键点的位置信息在当前场景图像中对应的位置，并将多个所述手部关键点的位置信息在当前场景图像中对应的位置作为所述封闭图形轮廓位置。 2.根据权利要求1所述的文字关键信息的提取方法，其特征在于，所述根据所述封闭图形轮廓位置、以及所述关键字，基于多模态融合确定所述结构化区域模板，包括：对当前场景图像、所述封闭图形轮廓位置和所述关键字分别进行预处理；将预处理后的所述当前场景图像、所述封闭图形轮廓位置和所述关键字映射到同一个维度，分别得到所述当前场景图像、所述封闭图形轮廓位置和所述关键字在同一维度下的第一特征；将所述第一特征进行维度合并得到第二特征；根据所述第二特征基于卷积运算和坐标变换，得到所述文字信息中的关键信息在当前场景图像中的位置坐标；基于所述位置坐标和预先保存的所述关键字获取所述结构化区域模板。 3.根据权利要求1所述的文字关键信息的提取方法，其特征在于，所述根据所述封闭图形轮廓位置，确定所述封闭图形轮廓还包括依据预定规则判断所述封闭图形是否完整，所述预定规则为：若所述封闭图形轮廓位置中的位置点存在重复，则所述封闭图形完整。 4.根据权利要求2所述的文字关键信息的提取方法，其特征在于，所述对当前场景图像、所述封闭图形轮廓位置和所述关键字分别进行预处理，包括：基于卷积神经网络算法对当前场景图像进行特征提取；对所述封闭图形轮廓位置的坐标点进行归一化；以及，权　利　要　求　书 1/2 页 2 CN 114359911 B 2对所述关键字提取对应的词向量。 5.根据权利要求1至4任一项所述的文字关键信息的提取方法，其特征在于，所述方法应用于可穿戴设备，所述可穿戴设备至少包括图像采集设备、语音录入装置、显示装置、保存装置和处理器；所述图像采集设备用于采集当前场景图像以及实时场景图像，并将当前场景图像以及实时场景图像发送至所述处理器；所述语音录入装置用于录入所述语音指令和所述语音提示，并将所述语音指令和所述语音提示发送至所述处理器；所述处理器用于基于所述语音指令和所述实时场景图像获取所述封闭图形轮廓位置，并基于所述语音提示获取关键字，并将所述封闭图形轮廓以及所述关键字送往所述显示装置显示以及保存装置保存，还基于所述封闭图形轮廓位置和所述关键字生成所述结构化区域模板；还用于识别当前场景图像中文字信息，并结合所述文字信息和所述结构化区域模板提取所述文字信息中的关键信息。 6.一种文字关键信息的提取装置，其特征在于，包括：获取模块，用于获取图像采集设备输入的当前场景图像，所述当前场景图像包括至少一个文字关联图像；文字识别模块，用于识别所述文字关联图像所对应的文字信息；处理模块，用于基于结构化区域模板，提取所述文字信息中的关键信息并输出；其中，所述结构化区域模板依据当前场景图像、基于语音指令确定的封闭图形轮廓位置、以及所述封闭图形轮廓内对应的关键字确定；所述结构化区域模板通过如下步骤生成：接收并识别所述语音指令；基于所述语音指令，获取当前场景图像中的封闭图形轮廓位置；根据所述封闭图形轮廓位置，确定所述封闭图形轮廓；接收语音提示并识别所述语音提示得到关键字，并显示和保存所述关键字；其中，所述关键字用于表示所述封闭图形轮廓内的文字信息的属性；根据所述封闭图形轮廓位置以及所述关键字，基于多模态融合确定所述结构化区域模板；所述获取所述当前场景图像中的封闭图形轮廓位置包括：基于手部检测获取预定时间区间内的多个实时场景图像中每个实时场景图像所包括的手部图像；其中，所述多个实时场景图像和所述当前场景图像均处于同一个视频流中；基于多个所述手部图像进行关键点检测，获取手部关键点的位置信息；追踪得到多个所述手部关键点的位置信息在当前场景图像中对应的位置，并将多个所述手部关键点的位置信息在当前场景图像中对应的位置作为所述封闭图形轮廓位置。 7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述文字关键信息的提取方法的步骤。 8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至 5任一项所述文字关键信息的提取方法的步骤。权　利　要　求　书 2/2 页 3 CN 114359911 B 3

专利 文字关键信息的提取方法及装置

专利文字关键信息的提取方法及装置