(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210267289.8
(22)申请日 2022.03.18
(65)同一申请的已公布的文献号
申请公布号 CN 114359911 A
(43)申请公布日 2022.04.15
(73)专利权人 北京亮亮视野科技有限公司
地址 100176 北京市大兴区北京经济技 术
开发区荣华中路19号院1号楼B座
1905、 1906室
(72)发明人 张旭龙 吴斐 张立 张冰洋
杨华龙 谢晓蓓 李竺虔 罗龙
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
专利代理师 吴勇涛(51)Int.Cl.
G06V 30/148(2022.01)
G06V 40/10(2022.01)
G10L 15/26(2006.01)
G06V 20/40(2022.01)
G06T 7/70(2017.01)
G06T 7/11(2017.01)
G06V 10/44(2022.01)
(56)对比文件
CN 114038004 A,202 2.02.11
CN 110188755 A,2019.08.3 0
CN 113963355 A,2022.01.21
CN 113505741 A,2021.10.15
US 2021312 214 A1,2021.10.07
审查员 郭东榕
(54)发明名称
文字关键信息的提取方法及装置
(57)摘要
本发明提供一种文字关键信息的提取方法
及装置, 方法包括: 获取图像采集设备输入的当
前场景图像, 当前场景图像包括至少一个文字关
联图像; 识别文字关联图像所对应的文字信息;
基于结构化区域模板, 提取文字信息中的关键信
息并输出; 其中, 结构化区域模板依据当前场景
图像、 基于语音指令确定的封闭图形轮廓位置、
以及封闭图形轮廓内对应的关键字确定。 通过识
别得到一个开放场景下的场景图像中文字关联
图像部分对应的文字信息, 并结合在该场景下生
成的结构化区域模板, 提取得到文字新消息中的
关键信息, 从而不需要根据场景定制化开发, 也
可以得到特定场景下的图像中文字信息的关键
信息对应的结构化信息, 减少了人力开发的成
本。
权利要求书2页 说明书13页 附图6页
CN 114359911 B
2022.07.26
CN 114359911 B
1.一种文字关键信息的提取 方法, 其特 征在于, 包括如下步骤:
获取图像采集设备输入的当前场景图像, 所述当前场景图像包括至少一个文字关联图
像;
识别所述文字关联图像所对应的文字信息;
基于结构化区域模板, 提取 所述文字信息中的关键信息并输出;
其中, 所述结构化区域模板依据当前场景图像、 基于语音指令确定的封 闭图形轮廓位
置、 以及所述封闭 图形轮廓内对应的关键 字确定;
所述结构化区域模板通过如下步骤生成:
接收并识别所述语音指令;
基于所述语音指令, 获取当前场景图像中的封闭 图形轮廓位置;
根据所述封闭 图形轮廓位置, 确定所述封闭 图形轮廓;
接收语音提示并识别所述语音提示得到关键字, 并显示和保存所述关键字; 其中, 所述
关键字用于表示所述封闭 图形轮廓内的文字信息的属性;
根据所述封闭图形轮廓 位置以及所述关键字, 基于多模态融合确定所述结构化 区域模
板;
所述获取 所述当前场景图像中的封闭 图形轮廓位置包括:
基于手部检测获取预定时间区间内的多个实时场景图像中每个实时场景图像所包括
的手部图像; 其中, 所述多个实时场景图像和所述当前场景图像均处于同一个视频流中;
基于多个所述手部图像进行关键点检测, 获取手部关键点的位置信息;
追踪得到多个所述手部关键点的位置信 息在当前场景图像中对应的位置, 并将多个所
述手部关键点的位置信息在当前场景图像中对应的位置作为所述封闭 图形轮廓位置 。
2.根据权利要求1所述的文字关键信 息的提取方法, 其特征在于, 所述根据所述封闭图
形轮廓位置、 以及所述关键 字, 基于多模态融合确定所述结构化区域模板, 包括:
对当前场景图像、 所述封闭 图形轮廓位置和所述关键 字分别进行 预处理;
将预处理后的所述当前场景图像、 所述封闭图形轮廓 位置和所述关键字映射到同一个
维度, 分别得到所述当前场景图像、 所述封闭图形轮廓位置和所述关键字在同一维度下 的
第一特征;
将所述第一特 征进行维度合并得到第二特 征;
根据所述第 二特征基于卷积运算和坐标变换, 得到所述文字信 息中的关键信 息在当前
场景图像中的位置坐标;
基于所述 位置坐标和预 先保存的所述关键 字获取所述结构化区域模板 。
3.根据权利要求1所述的文字关键信 息的提取方法, 其特征在于, 所述根据所述封闭图
形轮廓位置, 确定所述封闭图形轮廓还包括依据预定规则判断所述封闭图形是否完整, 所
述预定规则为:
若所述封闭 图形轮廓位置中的位置点存在重复, 则所述封闭 图形完整。
4.根据权利要求2所述的文字关键信息的提取方法, 其特征在于, 所述对当前场景图
像、 所述封闭 图形轮廓位置和所述关键 字分别进行 预处理, 包括:
基于卷积神经网络算法对当前场景图像进行 特征提取;
对所述封闭 图形轮廓位置的坐标点进行归一 化; 以及,权 利 要 求 书 1/2 页
2
CN 114359911 B
2对所述关键 字提取对应的词向量。
5.根据权利要求1至4任一项所述的文字关键信息的提取方法, 其特征在于, 所述方法
应用于可穿戴设备, 所述可穿戴设备至少包括图像采集设备、 语音录入装置、 显示装置、 保
存装置和处 理器;
所述图像采集设备用于采集当前场景图像以及实时场景图像, 并将当前场景图像以及
实时场景图像发送至所述处 理器;
所述语音录入装置用于录入所述语音指令和所述语音提示, 并将所述语音指令和所述
语音提示发送至所述处 理器;
所述处理器用于基于所述语音指令和所述实时场景图像获取所述封闭图形轮廓 位置,
并基于所述语音提示 获取关键字, 并将所述封闭图形轮廓以及所述关键字送往所述显示装
置显示以及保存装置保存, 还基于所述封闭图形轮廓位置和所述关键字生成所述结构化区
域模板; 还用于识别 当前场景图像中文字信息, 并结合所述文字信息和所述结构化区域模
板提取所述文字信息中的关键信息 。
6.一种文字关键信息的提取装置, 其特 征在于, 包括:
获取模块, 用于获取图像采集设备输入的当前场景图像, 所述当前场景图像包括至少
一个文字关联图像;
文字识别模块, 用于识别所述文字关联图像所对应的文字信息;
处理模块, 用于基于结构化区域模板, 提取 所述文字信息中的关键信息并输出;
其中, 所述结构化区域模板依据当前场景图像、 基于语音指令确定的封 闭图形轮廓位
置、 以及所述封闭 图形轮廓内对应的关键 字确定;
所述结构化区域模板通过如下步骤生成:
接收并识别所述语音指令;
基于所述语音指令, 获取当前场景图像中的封闭 图形轮廓位置;
根据所述封闭 图形轮廓位置, 确定所述封闭 图形轮廓;
接收语音提示并识别所述语音提示得到关键字, 并显示和保存所述关键字; 其中, 所述
关键字用于表示所述封闭 图形轮廓内的文字信息的属性;
根据所述封闭图形轮廓 位置以及所述关键字, 基于多模态融合确定所述结构化 区域模
板;
所述获取 所述当前场景图像中的封闭 图形轮廓位置包括:
基于手部检测获取预定时间区间内的多个实时场景图像中每个实时场景图像所包括
的手部图像; 其中, 所述多个实时场景图像和所述当前场景图像均处于同一个视频流中;
基于多个所述手部图像进行关键点检测, 获取手部关键点的位置信息;
追踪得到多个所述手部关键点的位置信 息在当前场景图像中对应的位置, 并将多个所
述手部关键点的位置信息在当前场景图像中对应的位置作为所述封闭 图形轮廓位置 。
7.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运
行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至5任一项所
述文字关键信息的提取 方法的步骤。
8.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机
程序被处 理器执行时实现如权利要求1至 5任一项所述文字关键信息的提取 方法的步骤。权 利 要 求 书 2/2 页
3
CN 114359911 B
3
专利 文字关键信息的提取方法及装置
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:11:39上传分享