(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111639867.8
(22)申请日 2021.12.2 9
(71)申请人 武汉大学
地址 430000 湖北省武汉市武昌区珞珈山
(72)发明人 何发智 谭鸿昊 赵坤
(74)专利代理 机构 武汉智权专利代理事务所
(特殊普通 合伙) 42225
代理人 余浩
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/33(2019.01)
G06F 40/30(2020.01)
G06N 20/00(2019.01)
(54)发明名称
情感-原因对抽取方法、 装置、 设备及可读存
储介质
(57)摘要
本发明提供一种情感 ‑原因对抽取方法、 装
置、 设备及可读存储介质, 所述情感 ‑原因对抽取
方法包括: 获取自然语言文本的待预测文档后,
利用预训练的语言模型来获取文档中子句的语
义表示, 并使用训练完成的情感 ‑原因对抽取模
型来抽取得到文档中的情感 ‑原因对。 其中, 情
感‑原因对抽取模型包括多层融合了高斯先验的
注意力模块。 在情感 ‑原因对抽取模型训练过程
中, 计算得到进行子句类型预测与进行情感 ‑原
因对预测时的联合损失值, 用联合损失值梯度更
新情感‑原因对抽取模型的参数, 直到联合损失
值收敛, 结束训练, 得到训练完成的情感 ‑原因对
抽取模型。 本发 明充分捕获了文档中子句间的相
对位置信息, 可以自动抽取得到文档中潜在的情
感‑原因对。
权利要求书4页 说明书17页 附图3页
CN 114357164 A
2022.04.15
CN 114357164 A
1.一种情感 ‑原因对抽取 方法, 其特 征在于, 所述情感 ‑原因对抽取 方法包括:
将待预测文档输入到语言模型中, 得到所述待预测文档中每 个子句的向量 化表示;
将所述每个子句的向量化表示输入到训练完成的情感 ‑原因对抽取模型中, 基于所述
训练完成的情感 ‑原因对抽取模型 得到所述待预测文档中的情感 ‑原因对;
所述基于所述训练完成的情感 ‑原因对抽取模型得到所述待预测文档 中的情感 ‑原因
对的步骤 包括:
基于第一融合高斯先验的自注意力模块, 得到每 个子句的第一向量 化表示;
基于所述每个子句的第 一向量化表示预测每个子句的类型, 并基于类型预测值划分得
到得到情感子句集和原因子句集;
基于融合高斯先验的交叉注意力模块, 得到情 感子句集与原因子句集中每个子句的第
二向量化表示;
对所述情感子句集和 原因子句集应用笛卡尔积, 将情 感子句集中每个子句的第 二向量
化表示和原因子句集中每个子句的第二向量化表示进 行一一拼接操作, 得到每个候选子句
对的向量 化表示;
基于第二融合高斯先验的自注意力模块, 得到每 个候选子句对的新的向量 化表示;
根据每个候选子句对的新的向量化表示进行情感 ‑原因对的预测, 并基于情 感‑原因对
的预测值, 抽取 得到所述待预测文档中的情感 ‑原因对。
2.如权利要求1所述的情感 ‑原因对抽取方法, 其特征在于, 所述基于第一融合高斯先
验的自注意力模块, 得到每 个子句的第一向量 化表示的步骤 包括:
将每个子句的向量化表示输入第 一融合高斯先验的自注意力模块, 得到每个子句的第
一向量化表示, 其中, 第一融合高斯先验的自注意力模块的公式表示 为:
其中, si为子句i的第一向量化表示, ci为子句i的向量化表示, cj为待预测文档中非子
句i的任一子句的向量化表 示, di,j为ci与cj的距离,
为高斯先验, ∝1和b1为
训练参数。
3.如权利要求1所述的情感 ‑原因对抽取方法, 其特征在于, 所述基于所述每个子句的
第一向量 化表示预测每 个子句的类型的步骤 包括:
将每个子句的第一向量 化表示输入第一预测公式, 第一预测公式为:
其中,
为子句i的类型 预测值, si为子句i的第一向量 化表示, Ws和bs为训练参数。
4.如权利要求1所述的情感 ‑原因对抽取方法, 其特征在于, 所述基于融合高斯先验的
交叉注意力模块, 得到情感子句集与原因子句集中每个子句的第二向量化表示的步骤包
括:
将情感子句集与原因子句集中每个子句的第一向量化表示输入到融合高斯先验的交
叉注意力模块, 得到情感子句集与 原因子句集中每个子句的第二向量化表示, 其中, 融合高权 利 要 求 书 1/4 页
2
CN 114357164 A
2斯先验的交叉注意力模块的公式表示 为:
其中,
为情感子句集中子句i的第二向量化表示,
为情感子句集中子句i的第
一向量化表示,
为原因子句集中子句j的第二向量化表示,
为原因子句集中子句j
的第一向量化表示, di,j、 dj,i为
与
的距离,
为
高斯先验, ∝2和b2、∝3和b3为训练参数。
5.如权利要求1所述的情感 ‑原因对抽取方法, 其特征在于, 所述基于第二融合高斯先
验的自注意力模块, 得到每 个候选子句对的新的向量 化表示的步骤 包括:
将每个候选子句对的向量化表示输入到第 二融合高斯先验的自注意力模块, 得到每个
候选子句对的新的向量 化表示, 其中, 第二融合高斯先验的自注意力模块的公式表示 为:
其中,
为候选子句对 的新的向量化表示, hi,j为情感子句i和原因子句j构成的候选
子句对的向量化表 示, n为待 预测文档中的子句数量, hi,m为情感子句i和原因子句集中任一
子句构成的候选子句对的向量化表示, dj,m为原因子句j与原因子句集中任一子句间的距
离,
为高斯先验, ∝4和b4为训练参数。
6.如权利要求1所述的情感 ‑原因对抽取方法, 其特征在于, 所述根据每个候选子句对
的新的向量 化表示进行情感 ‑原因对的预测的步骤 包括:
将候选子句对的新的向量 化表示输入到第二预测公式, 第二预测公式为:
其中,
为子句i与子句j构成的候选子句对的新的向量化表示的预测值,
为候选子
句对的新的向量 化表示, Wh和bh为训练参数。
7.如权利要求1所述的情感 ‑原因对抽取方法, 其特征在于, 所述情感 ‑原因对抽取方法
还包括:
将训练文档输入到语言模型中, 得到所述训练文档中每 个子句的向量 化表示;
将所述每个子句的向量化表示输入情 感‑原因对抽取模型中, 基于所述情 感‑原因对抽
取模型得到联合损失;
根据所述联合损失梯度更新所述情感 ‑原因对抽取模型的训练参数;
检测联合损失是否收敛;权 利 要 求 书 2/4 页
3
CN 114357164 A
3
专利 情感-原因对抽取方法、装置、设备及可读存储介质
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:31:39上传分享