说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111338582.0 (22)申请日 2021.11.12 (71)申请人 北京明略软件系统有限公司 地址 100089 北京市海淀区中关村东路1号 院1号楼10层A10 02 (72)发明人 刘伟硕  (74)专利代理 机构 青岛清泰联信知识产权代理 有限公司 3725 6 代理人 栾瑜 (51)Int.Cl. G06F 40/295(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 基于模型融合的实体识别方法和系统 (57)摘要 本申请涉及一种基于模型融合的实体识别 方法和系统, 该方法包括: 利用至少两个打标模 型分别对一标注单元进行标注, 获得对应的初始 标注结果, 组成初始标注结果集, 并根据预设的 先验数据集对每一初始标注结果进行打分; 根据 获得的每一初始标注结果的分数得到分数向量, 并对分数向量进行归一化处理获得权重向量; 根 据权重向量和由每一打标模型的概率分布向量 组成的概率矩阵进行模型融合, 获得概率向量; 根据概率向量获取该标注单元的最终标注结果; 依次遍历待识别文本序列中的每一标注单元, 获 得每一标注单元的最终标注结果, 进而对待识别 文本序列进行 实体识别。 通过对多个 打标模型的 标注结果 集成融合得到最终标注结果。 权利要求书2页 说明书10页 附图2页 CN 114091458 A 2022.02.25 CN 114091458 A 1.一种基于模型融合的实体识别方法, 其特 征在于, 利用至少两个打标模型分别对一标注单元进行标注, 获得对应的初始标注结果, 组成 初始标注结果 集, 并根据预设的先验数据集对每一初始标注结果进行打 分; 根据获得的每一初始标注结果的分数得到分数向量, 并对分数向量进行归一化处理获 得权重向量; 根据权重向量和由每一打标模型的概率分布向量组成的概率矩阵进行模型融合, 获得 概率向量; 根据概率向量获取 该标注单元的最终标注结果; 依次遍历待识别文本序列中的每一标注单元, 获得每一标注单元的最终标注结果, 进 而对待识别文本序列进行实体识别。 2.根据权利要求1的基于模型融合的实体识别方法, 其特征在于, 所述标注结果包括单 字实体标签、 多字实体的位置标签和/或非 实体标签。 3.根据权利要求1的基于模型融合的实体识别方法, 其特征在于, 具体通过下述公式根 据预设的先验数据集对每一初始标注结果进行打 分: Scorei=(Ci+Ri)·Fi+Fi 其中, Scorei为第i个打标模型对当前标注单元的标注结果的分数, i=1, 2, ...n, n表示 打标模型的个数, Ci表示第i个打标模型对当前标注单元前一标注单元的标注结果是否存 在于先验数据集中, 如存在, 则Ci=1, 否则Ci=0; Ri第i个打标模型对当前标注单元的标注 结果是否存在于先验 数据集中, 如存在, 则Ri=1, 否则, Ri=0; Fi表示第i个 打标模型对当前 标注单元的标注结果在对应的标注结果 集中出现的次数。 4.根据权利要求1 ‑3任意一项所述的基于模型融合的实体识别方法, 其特征在于, 具体 通过下述方式获得权 重向量: 将每一初始标注结果的分数进行拼接获得分数向量; 对分数向量进行归一化处理得到权重向量, 归一化处理的方式包括softmax函数、 min ‑ max标准化、 Z‑score标准化方法和/或Z ‑scores简单化。 5.根据权利要求1 ‑3任意一项所述的基于模型融合的实体识别方法, 其特征在于, 具体 通过下述方式获得概 率向量: 通过深度 学习获得每一打标模型针对标注结果类型的概率分布向量, 根据概率分布向 量得到概 率矩阵; 根据权重向量和概 率矩阵通过 下述公式进行模型融合, 获得概 率向量: Promix=Pro·Weight 其中, Promix为概率向量, Weight为权重向量, Pro为概率矩阵, 概率矩阵为n ×m的矩阵, n代表标注单 元对应的标签 类型数, m为打标模型的数量。 6.根据权利 要求1的基于模型融合的实体识别方法, 其特征在于, 利用argmax函数处理 概率向量获得 标注单元的最终标注结果。 7.根据权利要求1 ‑6任意一项的基于模型融合的实体识别方法, 其特征在于, 打标模型 包括但不限于Istm模型、 bi lstm模型、 bi lstm+CRF模型、 ber t模型和ber t+CRF模型。 8.一种基于模型融合的实体识别系统, 其特 征在于, 包括: 标注结果打分模块, 利用至少两个打标模型分别对一标注单元进行标注, 获得对应的权 利 要 求 书 1/2 页 2 CN 114091458 A 2初始标注结果, 组成初始标注结果集, 并根据预设的先验数据集对每一初始标注结果进行 打分; 分数归一化处理模块, 根据获得的每一初始标注结果的分数得到分数向量, 并对分数 向量进行归一 化处理获得权 重向量; 概率向量获取模块, 根据权重向量和由每一打标模型的概率分布向量组成的概率矩阵 进行模型融合, 获得概 率向量; 标注结果获取模块, 根据概 率向量获取 该标注单元的最终标注结果; 实体识别模块, 依次遍历待识别文本序列中的每一标注单元, 获得每一标注单元的最 终标注结果, 进 而对待识别文本序列进行实体识别。 9.一种计算机设备, 包括存储器、 处理器以及存储在存储器上并可在处理器上运行的 计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至7中任一 项所述的基于模型融合的实体识别方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器 执行时实现如权利要求1至7中任一项所述的基于模型融合的实体识别方法。权 利 要 求 书 2/2 页 3 CN 114091458 A 3

.PDF文档 专利 基于模型融合的实体识别方法和系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于模型融合的实体识别方法和系统 第 1 页 专利 基于模型融合的实体识别方法和系统 第 2 页 专利 基于模型融合的实体识别方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:02:08上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。