说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210282207.7 (22)申请日 2022.03.21 (71)申请人 深圳壹账通智能科技有限公司 地址 518066 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (入驻深圳市 前海商务秘书 有限公司) (72)发明人 范诗剑 朱昱锦 李超 徐亮  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 李彩玲 (51)Int.Cl. G06V 10/44(2022.01) G06V 30/414(2022.01) G06K 9/62(2022.01) (54)发明名称 一种表格信息提取方法、 装置、 电子设备及 存储介质 (57)摘要 本发明实施例公开了一种表格信息提取方 法、 装置、 电子设备及存储介质, 该方法包括: 获 取基础原始表格的半结构化表格数据; 对半结构 化表格数据进行归一化标准处理, 得到标准布局 表格的结构化表 格数据; 根据结构化表格数据中 各个单元格的单元格布局类别对标准布局表格 的单元格进行标记, 得到标准布局表格匹配的布 局分布表格; 根据布局分布表格提取多元组格式 的表格信息。 本发明实施例的技术方案能够对表 格正文实现结构化处理与提取, 从而满足表格信 息提取需求, 提高表格信息处理的高效性和表格 信息的应用性。 权利要求书2页 说明书14页 附图6页 CN 114581680 A 2022.06.03 CN 114581680 A 1.一种表格信息提取 方法, 其特 征在于, 包括: 获取基础原 始表格的半结构化表格数据; 对所述半结构化表格数据进行归一化标准处理, 得到标准布局表格的结构化表格数 据; 根据所述结构化表格数据中各个单元格的单元格布局类别对所述标准布局表格的单 元格进行 标记, 得到所述标准布局表格匹配的布局分布 表格; 根据所述布局分布 表格提取多元组格式的表格信息 。 2.根据权利要求1所述的方法, 其特征在于, 所述获取基础原始表格的半结构化表格数 据, 包括: 获取原始表格数据; 根据所述原 始表格数据的数据类型确定原 始表格抽取工具; 通过所述原始表格抽取工具对原始表格数据抽取初始表格信 息, 得到所述基础原始表 格的半结构化表格数据。 3.根据权利要求1所述的方法, 其特征在于, 所述对所述半结构化表格数据进行归一化 标准处理, 得到标准布局表格的结构化表格数据, 包括: 获取所述基础原 始表格的基础表格尺寸和表格行列数据; 根据所述表格行列数据确定所述半结构化表格数据的目标 行数和目标列数; 根据所述目标行数和所述目标列 数对所述基础表格尺寸进行划分, 得到归一化标准单 元格尺寸; 根据所述归一化标准单元格尺寸对所述基础原始表格进行拆分, 得到归一化标准单元 格; 根据所述基础原始表格的原始表格数据对所述归一化标准单元格的数据进行复制填 充, 得到所述标准布局表格的结构化表格数据。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述结构化表格数据中各个单元 格的单元格布局类别对所述标准布局表格的单元格进 行标记, 得到所述标准布局表格匹配 的布局分布 表格, 包括: 根据所述结构化表格数据获取所述标准布局表格中各个单元格的单元格关联信 息; 其 中, 所述单 元格关联信息包括单 元格文本信息和单 元格位置信息; 通过布局类别分类器根据所述单元格关联信息确定所述标准布局表格中各个单元格 的单元格布局类别; 根据所述标准布局表格中各个单元格的单元格布局类别对所述标准布局表格的单元 格进行标记, 得到所述标准布局表格匹配的布局分布 表格。 5.根据权利要求1所述的方法, 其特征在于, 所述根据所述布局分布表格提取多元组格 式的表格信息, 包括: 获取所述布局分布 表格的行头列头分布数据; 根据所述行头列头分布数据从所述布局分布 表格中拆分得到基础布局分布 表格; 从所述基础布局分布 表格中提取 所述多元组格式的基础表格信息; 将各所述基础表格信 息进行聚合处理, 得到所述布局分布表格的多元组格式的表格信 息。权 利 要 求 书 1/2 页 2 CN 114581680 A 26.根据权利要求5所述的方法, 其特征在于, 所述从所述基础布局分布表格中提取所述 多元组格式的基础表格信息, 包括: 获取所述基础布局分布表格的基础单元格关联信息; 其中, 所述基础单元格关联信息 包括基础单 元格位置信息、 基础单 元格布局类别以及基础单 元格文本信息; 根据所述基础单元格关联信息生成所述基础布局分布表格中基础单元格的上位单元 格搜索规则; 根据所述基础单元格的上位单元格搜索规则 搜索各所述基础单元格的上位单元格; 其 中, 所述上位单 元格包括行 上位单元格和列上位单 元格; 对所述上位单 元格进行纠错去重处 理, 得到目标 上位单元格信息; 根据所述基础单元格关联信息和所述目标上位单元格信息生成所述多元组格式的基 础表格信息 。 7.根据权利要求1 ‑6任一所述的方法, 其特征在于, 所述多元组格 式的表格信 息包括单 元格内容信息、 行上位单元格信息、 列上位单元格信息、 单元格布局类别以及单元格二分类 结果。 8.一种表格信息提取 方法装置, 其特 征在于, 包括: 数据获取模块, 用于获取基础原 始表格的半结构化表格数据; 数据处理模块, 用于对所述半结构化表格数据进行归一化标准处理, 得到标准布局表 格的结构化表格数据; 表格标记模块, 用于根据所述结构化表格数据中各个单元格的单元格布局类别对所述 标准布局表格的单 元格进行 标记, 得到所述标准布局表格匹配的布局分布 表格; 表格信息提取模块, 用于根据所述布局分布 表格提取多元组格式的表格信息 。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑7中任一项所述的 表格信息提取 方法。 10.一种计算机存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指令, 所述计算机指令用于使处理器执行时实现权利要求1 ‑7中任一项所述的表格信息提取方 法。权 利 要 求 书 2/2 页 3 CN 114581680 A 3

PDF文档 专利 一种表格信息提取方法、装置、电子设备及存储介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种表格信息提取方法、装置、电子设备及存储介质 第 1 页 专利 一种表格信息提取方法、装置、电子设备及存储介质 第 2 页 专利 一种表格信息提取方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:11:35上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。