说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111258623.5 (22)申请日 2021.10.27 (71)申请人 北京奇艺世纪科技有限公司 地址 100080 北京市海淀区北一 街2号爱奇 艺创新大厦10、 1 1层 (72)发明人 李晨 阳任科 (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 代理人 吕俊秀 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/274(2020.01) G06F 40/166(2020.01) G06F 16/335(2019.01) G06N 20/00(2019.01) (54)发明名称 指代消解模型的训练方法及装置、 电子设备 (57)摘要 本发明实施例提供了一种指代消解模型的 训练方法及装置、 电子设备。 该方法包括: 在预设 语料池中筛选符合目标条件的语料; 符合目标条 件的语料中至少存在第一候选名词、 第二候选名 词以及目标名词, 第一候选名词与目标名词相 同, 第二候选名词与目标名词不同。 将符合目标 条件的语料中的目标名词替换为预设标识, 第一 候选名词替换为第一预设名词, 第二候选名词替 换为第二预设名词, 得到目标语料。 生成对应目 标语料的标注信息, 根据目标语料以及对应目标 语料的标注信息进行训练。 本发 明实施例以自动 化的方式构造大量用于训练指代消解模型的目 标语料, 避免了人工标注语料的过程, 使得训练 指代消解模型的整个过程省时省力。 权利要求书2页 说明书16页 附图2页 CN 114091468 A 2022.02.25 CN 114091468 A 1.一种指代消解模型的训练方法, 其特 征在于, 所述方法包括: 在预设语料池中筛选符合目标条件的语料; 其中, 符合所述目标条件的语料中至少存 在第一候选名词、 第二候选名词以及目标名词, 所述 目标名词在所述语料中位于所述第一 候选名词以及所述第二候选名词之后, 所述第一候选名词与所述 目标名词相同, 所述第二 候选名词与所述目标名词不同; 将所述符合目标条件的语料中的所述目标名词替换为预设标识, 所述第 一候选名词替 换为第一预设名词, 所述第二候选名词替换为第二预设名词, 得到目标语料, 其中, 所述第 一预设名词和所述第二预设名词为包 含预设数量名词的目标词库中两个不同的名词; 根据所述第一预设名词以及所述第二预设名词, 生成对应所述目标语料的标注信息; 根据所述目标语料以及所述对应目标语料的标注信息, 对指代消解模型进行训练。 2.根据权利要求1所述的方法, 其特征在于, 将所述符合目标条件的语料中的所述目标 名词替换为预设标识, 所述第一候选名词替换为第一预设名词, 所述第二候选名词替换为 第二预设名词, 得到目标语料, 包括: 分别针对每条符合目标条件的语料, 在所述目标词库中随机选择一个名词作为第 一预 设名词, 并再次随机 选择一个与所述第一预设名词不同的名词作为第二预设名词; 分别针对每条符合目标条件的语料, 采用第一预设名词对所述第一候选名词进行替 换、 采用第二预设名词对所述第二候选名词进行替换以及 采用预设标识对 所述目标名词进 行替换, 生成所述目标语料。 3.根据权利要求2所述的方法, 其特征在于, 在所述目标词库中的名词、 第一候选名词 和第二候选名词均为人名的情况下, 所述在所述目标词库中随机选择一个名词 作为第一预 设名词, 并再次随机 选择一个与所述第一预设名词不同的名词作为第二预设名词, 包括: 根据所述符合目标条件的语料所属的文学作品, 确定所述第 一候选名词对应的性别为 第一性别, 所述第二 候选名词对应的性别为第二 性别; 在所述目标词库的对应第一 性别的名词中随机 选择一个名词作为第一预设名词; 在所述目标词库的对应第二性别的名词中随机选择一个与所述第一预设名词不同的 名词作为第二预设名词。 4.根据权利要求1所述的方法, 其特征在于, 所述在预设语料池中筛选符合目标条件的 语料, 包括: 基于命名实体识别确定所述预设语料池中每条语料包 含的名词; 根据每条语料包含的名词, 筛选至少存在所述第一候选名词、 所述第二候选名词以及 所述目标名词的语料。 5.根据权利要求1所述的方法, 其特征在于, 所述根据所述第 一预设名词以及所述第 二 预设名词, 生成对应所述目标语料的标注信息, 包括: 将所述第一预设名词以及所述第二预设名词组成候选名词集 合; 记录所述预设标识指代所述 候选名词集 合中的第一预设名词的目标信息 。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述目标语料以及所述对应目标 语料的标注信息, 对指代消解模型进行训练, 包括: 对所述目标语料中的所述第 一预设名词添加第 一标注标识, 并对所述第 二预设名词添 加第二标注标识, 得到中间语料;权 利 要 求 书 1/2 页 2 CN 114091468 A 2将所述中间语料输入所述指代消解模型, 根据所述第 一标注标识以及所述第 二标注标 识, 生成指示所述第一预设名词的第一语义向量、 指示第二预设名词的第二语义向量以及 目标语义向量, 其中, 所述 目标语义向量为根据所述中间语料中预设标识的上下文信息确 定的语义向量; 根据所述第一语义向量、 所述第二语义向量分别与所述目标语义向量的相似度, 确定 预测结果, 其中, 所述预测结果包括所述预设标识指代所述第一预设名词或者所述预设标 识指代所述第二预设名词; 根据所述预测结果以及所述目标信息, 调整所述指代消解模型中对应的参数。 7.根据权利要求6所述的方法, 其特征在于, 所述根据所述第一语义向量、 所述第二语 义向量分别与所述目标语义向量的相似度, 确定预测结果, 包括: 分别将所述第 一语义向量和所述第 二语义向量与 所述目标语义向量进行拼接, 得到第 一拼接向量和第二 拼接向量; 分别将所述第 一拼接向量和所述第 二拼接向量输入相似度计算模型, 得到第 一计算数 值和第二计算数值; 根据所述第 一计算数值和所述第 二计算数值, 确定所述预设标识指代所述候选名词集 合中的第一预设名词的概 率值; 将所述预设标识指代所述候选名词集合中的第 一预设名词的概率值, 确定为所述预测 结果。 8.一种指代消解模型的训练装置, 其特 征在于, 所述装置包括: 语料模块, 用于在预设语料池中筛选符合目标条件的语料; 其中, 符合所述目标条件的 语料中至少存在第一候选名词、 第二候选名词以及目标名词, 所述 目标名词在所述语料中 位于所述第一候选名词以及所述第二候选名词之后, 所述第一候选名词与所述目标名词相 同, 所述第二 候选名词与所述目标名词不同; 处理模块, 用于将所述符合目标条件的语料中的所述目标名词替换为预设标识, 所述 第一候选名词替换为第一预设名词, 所述第二候选名词替换为第二预设名词, 得到目标语 料, 其中, 所述第一预设名词和所述第二预设名词为包含预设数量名词的目标词库中两个 不同的名词; 标注模块, 用于根据所述第一预设名词以及所述第二预设名词, 生成对应所述目标语 料的标注信息; 训练模块, 用于根据所述目标语料以及所述对应目标语料的标注信息, 对指代消解模 型进行训练。 9.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储器和通信总线, 其中, 处理 器, 通信接口, 存 储器通过通信总线完成相互间的通信; 存储器, 用于存放计算机程序; 处理器, 用于执行存储器上所存放的程序时, 实现如权利要求1 ‑7中任意一项所述的指 代消解模型的训练方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储计算机程 序, 所述计算机程序被处理器执行时实现如权利要求1 ‑7中任意一项所述的指代消 解模型 的训练方法的步骤。权 利 要 求 书 2/2 页 3 CN 114091468 A 3
专利 指代消解模型的训练方法及装置、电子设备
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 19:02:42
上传分享
举报
下载
原文档
(557.4 KB)
分享
友情链接
T-ZZB 2034—2021 食品包装用阻隔塑料杯.pdf
JR-T 0079—2013 保险业信息系统运行维护工作规范.pdf
T-CES 184—2022 中低压配电网快速插拔电缆连接器配置技术导则.pdf
DB11-T 968-2021 预制混凝土构件质量检验标准 北京市.pdf
GB 38031-2020 电动汽车用动力蓄电池安全要求.pdf
GM-T 0016-2012 智能密码钥匙密码应用接口规范.pdf
T-CAAMTB 66—2022 汽车电子助力制动系统总成耐久性能要求及台架试验方法.pdf
GB-T 36333-2018 智慧城市 顶层设计指南.pdf
DB37-T 4314—2021 1:50000水文地质调查编图规范 山东省.pdf
T-CEC 711.22—2022 电工装备供应商数据采集及接口规范 第22 部分:机器人.pdf
GB-T 31495.2-2015 信息安全技术 信息安全保障指标体系及评价方法 第2部分:指标体系.pdf
T-CACM 1352—2021 慢性溃疡气虚毒滞证诊断标准.pdf
GB-T 2350-2020 流体传动系统及元件 活塞杆螺纹型式和尺寸系列.pdf
T-WEEA 007—2022 手摇式升降课桌椅.pdf
GB-T 20520-2006 信息安全技术 公钥基础设施 时间戳规范.pdf
GB-T 37227.1-2018 制冷系统绩效评价与计算测试方法 第1部分:蓄能空调系统.pdf
GB-T 41542-2022 地球卫星轨道空间环境探测要素通用规范.pdf
GM-T 0125.3-2022 JSON Web 密码应用语法规范 第3部分:数据加密.pdf
GB-T 32823-2016 电网节能项目节约电力电量测量和验证技术导则.pdf
DB45-T 396-2022 膨胀土地区建筑技术规程 广西壮族自治区.pdf
1
/
3
21
评价文档
赞助2.5元 点击下载(557.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。