说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210177253.0 (22)申请日 2022.02.24 (71)申请人 北京交通大 学 地址 100044 北京市海淀区西直门外上园 村3号 (72)发明人 张春 张宁 贺璐 (74)专利代理 机构 北京市商 泰律师事务所 11255 专利代理师 黄晓军 (51)Int.Cl. G06F 40/242(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06N 3/08(2006.01)G06N 5/04(2006.01) (54)发明名称 一种融合词典与字符特征的字符序列识别 方法 (57)摘要 本发明提供了一种融合词典与字符特征的 字符序列识别方法。 该方法包括: 获取输入序列 中的每个字符匹配的词典中的三类词典匹配词, 将输入字符序列的每个字符嵌入向量与该字符 对应的三类词典匹配词集 嵌入向量进行拼接, 得 到词典增强的字符嵌入向量; 将词典增强的字 符 嵌入向量与三类词典匹配词进行拼接后, 送入 Transformer的编码层, Transformer的编码层输 出待解码信息; 将待解码信息输入至条件随机场 CRF解码层进行解码, 得到输入序列的标注结果。 本发明的方法通过综合词典的匹配词在字符嵌 入、 模型推理阶段对字符特征的交互、 匹配词以 及字符的位置信息增强的向量表 示, 从而有效地 增强模型对文本句子在嵌入过程 以及推理过程 中对语义信息的表示与理解。 权利要求书2页 说明书7页 附图1页 CN 114662476 A 2022.06.24 CN 114662476 A 1.一种融合词典与字符特 征的字符序列识别方法, 其特 征在于, 包括: 获取输入序列中的每个字符匹配的词典中的三类词典匹配词, 将输入字符序列的每个 字符嵌入向量与该字符对应的三类词典匹配词集嵌入向量进 行拼接, 得到词典增强的字符 嵌入向量; 将所述词典增强的字符嵌入向量与所述三类词典匹配词进行拼接后, 送入 Transformer的编码层, Transformer的编码层输出待解码信息; 将所述待解码信息输入至条件随机场CRF解码层进行解码, 得到所述输入序列的标注 结果。 2.根据权利要求1所述的方法, 其特征在于, 所述的获取输入序列中的每个字符匹配的 词典中的三类词典匹配词, 将输入字符序列的每个字符嵌入向量与该字符对应的三类词典 匹配词集嵌入向量进行拼接, 得到词典增强的字符嵌入向量, 包括: 给定输入序列为C=[c1, c2, c3, ..., cn], 输入序列C中的第i个字符为ci, 通过预定义的 字符表对字符ci进行标记并输入至BERT编码器, 得到 字符ci的字符嵌入向量 分别表示与字符ci对应的该字符在词首、 词中、 词尾的三类词典匹配词集嵌入 向量, B、 M、 E 分别表示该字符在词首、 词中、 词尾的三类匹配词集, 令词集Z=B|M|E, 词集R= B∪M∪E, 则 具体计算如下: 其中, weight(w)表示匹配词w在某一类词集中的权重, num(w)表示匹配词w在语料中出 现的频数, e(w)表示匹配词w的嵌入表示, e表示词典的查找 表; 将字符嵌入向量 与对应的三类匹配词嵌入向量 进行拼接, 将拼接结果作为 第i个词典增强的字符嵌入向量 词典增强的字符序列 3.根据权利要求2所述的方法, 其特征在于, 所述的将所述词典增强的字符嵌入向量与 所述三类词典匹配词进行拼接后, 送入Transformer的编码层, Transformer的编码层输出 待解码信息, 包括: 将词典增强的字符序列xrep经过线性降维后, 与字符ci对应的词首、 词中、 词尾的三类匹 配词集B、 M、 E进行拼接后, 分别加上开始位置嵌入向量pstart以及结束位置嵌入向量pend, 得 到词典增强模 型的输入xdec, 字符序列的开始 位置与结束位置相同, 每个匹配词的开始位置 即为该词第一个字符所在的位置, 结束位置即为该词最后一个字符所在的位置, 计算如下: xdec=[xrepW1; e(w1), e(w2), e(w3), ..., e(wk)]+pstart+pend 其中, W1表示模型参数, p表示 位置信息的查找 表; 将xdec输入至Transformer的编码结构, Transformer的编码结构输出待解码信息A。 4.根据权利要求3所述的方法, 其特征在于, 所述的将所述待解码信 息输入至条件随机 场CRF解码层进行解码, 得到所述输入序列的标注结果, 包括: 将待解码信息A输入至CRF解码层进行解码预测, 将CRF获取的概率最大的序列作为所权 利 要 求 书 1/2 页 2 CN 114662476 A 2述输入序列C的标签序列y; 标签序列y=[y1, y2, y3, ..., yn], Y表示所有可能的标签序列集合, 标注序列y概率计算 如下: 其中, Wy, y′, by, y′是依据标签对(y, y ′)的训练参数, θ表示模型 所有的可训练参数。权 利 要 求 书 2/2 页 3 CN 114662476 A 3
专利 一种融合词典与字符特征的字符序列识别方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:27
上传分享
举报
下载
原文档
(645.0 KB)
分享
友情链接
GM-T 0023-2014 IPSec VPN网关产品规范.pdf
GB-T 28827.4-2019 信息技术服务 运行维护 第4部分:数据中心服务要求.pdf
DB51-T 3050-2023 四川省行政执法案件编号规则 四川省.pdf
GB-T 20096-2021 轮滑鞋.pdf
GB-T 3610-2010 电池锌饼.pdf
GB-T 32831-2016 高能激光光束质量评价与测试方法.pdf
GB-T 14951-2023 汽车节油技术评定方法.pdf
GB 30000.20-2013 化学品分类和标签规范 第20部分:严重眼损伤-眼刺激.pdf
T-JSSES 24—2022 陶粒窑协同处置污染土壤技术指南.pdf
T-CFA 0310021—2023 铸造企业规范条件.pdf
GB-T 36639-2018 信息安全技术 可信计算规范 服务器可信支撑平台.pdf
甲子光年智库 2023AIGC市场研究报告.pdf
GB-T 43244-2023 机关事务信息化建设指南.pdf
GB-T 41793-2022 人造革合成革试验方法 潜在酚黄变的测定.pdf
YD-T 2702-2014 电信网和互联网安全防护基线配置要求及检测要求-中间件.pdf
GB-T 30057-2013 国际货运代理合同规范.pdf
DB21-T 3870-2023 工业数字化转型典型场景评估规范 辽宁省.pdf
T-SCCIA 013—2023 机器人通行领域的身份鉴别密码应用指南.pdf
GB-T 32918.2-2016 信息安全技术 SM2椭圆曲线公钥密码算法 第2部分:数字签名算法.pdf
DB42-T 1596-2020 婴幼儿日间照料托育机构服务规范 湖北省.pdf
1
/
11
评价文档
赞助2.5元 点击下载(645.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。