专利 情感-原因对抽取方法、装置、设备及可读存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111639867.8 (22)申请日 2021.12.2 9 (71)申请人武汉大学地址 430000 湖北省武汉市武昌区珞珈山 (72)发明人何发智　谭鸿昊　赵坤　 (74)专利代理机构武汉智权专利代理事务所 (特殊普通合伙) 42225 代理人余浩 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06N 20/00(2019.01) (54)发明名称情感-原因对抽取方法、装置、设备及可读存储介质 (57)摘要本发明提供一种情感 ‑原因对抽取方法、装置、设备及可读存储介质，所述情感 ‑原因对抽取方法包括：获取自然语言文本的待预测文档后，利用预训练的语言模型来获取文档中子句的语义表示，并使用训练完成的情感 ‑原因对抽取模型来抽取得到文档中的情感 ‑原因对。其中，情感‑原因对抽取模型包括多层融合了高斯先验的注意力模块。在情感 ‑原因对抽取模型训练过程中，计算得到进行子句类型预测与进行情感 ‑原因对预测时的联合损失值，用联合损失值梯度更新情感‑原因对抽取模型的参数，直到联合损失值收敛，结束训练，得到训练完成的情感 ‑原因对抽取模型。本发明充分捕获了文档中子句间的相对位置信息，可以自动抽取得到文档中潜在的情感‑原因对。权利要求书4页说明书17页附图3页 CN 114357164 A 2022.04.15 CN 114357164 A 1.一种情感 ‑原因对抽取方法，其特征在于，所述情感 ‑原因对抽取方法包括：将待预测文档输入到语言模型中，得到所述待预测文档中每个子句的向量化表示；将所述每个子句的向量化表示输入到训练完成的情感 ‑原因对抽取模型中，基于所述训练完成的情感 ‑原因对抽取模型得到所述待预测文档中的情感 ‑原因对；所述基于所述训练完成的情感 ‑原因对抽取模型得到所述待预测文档中的情感 ‑原因对的步骤包括：基于第一融合高斯先验的自注意力模块，得到每个子句的第一向量化表示；基于所述每个子句的第一向量化表示预测每个子句的类型，并基于类型预测值划分得到得到情感子句集和原因子句集；基于融合高斯先验的交叉注意力模块，得到情感子句集与原因子句集中每个子句的第二向量化表示；对所述情感子句集和原因子句集应用笛卡尔积，将情感子句集中每个子句的第二向量化表示和原因子句集中每个子句的第二向量化表示进行一一拼接操作，得到每个候选子句对的向量化表示；基于第二融合高斯先验的自注意力模块，得到每个候选子句对的新的向量化表示；根据每个候选子句对的新的向量化表示进行情感 ‑原因对的预测，并基于情感‑原因对的预测值，抽取得到所述待预测文档中的情感 ‑原因对。 2.如权利要求1所述的情感 ‑原因对抽取方法，其特征在于，所述基于第一融合高斯先验的自注意力模块，得到每个子句的第一向量化表示的步骤包括：将每个子句的向量化表示输入第一融合高斯先验的自注意力模块，得到每个子句的第一向量化表示，其中，第一融合高斯先验的自注意力模块的公式表示为：其中， si为子句i的第一向量化表示， ci为子句i的向量化表示， cj为待预测文档中非子句i的任一子句的向量化表示， di,j为ci与cj的距离，为高斯先验， ∝1和b1为训练参数。 3.如权利要求1所述的情感 ‑原因对抽取方法，其特征在于，所述基于所述每个子句的第一向量化表示预测每个子句的类型的步骤包括：将每个子句的第一向量化表示输入第一预测公式，第一预测公式为：其中，为子句i的类型预测值， si为子句i的第一向量化表示， Ws和bs为训练参数。 4.如权利要求1所述的情感 ‑原因对抽取方法，其特征在于，所述基于融合高斯先验的交叉注意力模块，得到情感子句集与原因子句集中每个子句的第二向量化表示的步骤包括：将情感子句集与原因子句集中每个子句的第一向量化表示输入到融合高斯先验的交叉注意力模块，得到情感子句集与原因子句集中每个子句的第二向量化表示，其中，融合高权　利　要　求　书 1/4 页 2 CN 114357164 A 2斯先验的交叉注意力模块的公式表示为：其中，为情感子句集中子句i的第二向量化表示，为情感子句集中子句i的第一向量化表示，为原因子句集中子句j的第二向量化表示，为原因子句集中子句j 的第一向量化表示， di,j、 dj,i为与的距离，为高斯先验， ∝2和b2、∝3和b3为训练参数。 5.如权利要求1所述的情感 ‑原因对抽取方法，其特征在于，所述基于第二融合高斯先验的自注意力模块，得到每个候选子句对的新的向量化表示的步骤包括：将每个候选子句对的向量化表示输入到第二融合高斯先验的自注意力模块，得到每个候选子句对的新的向量化表示，其中，第二融合高斯先验的自注意力模块的公式表示为：其中，为候选子句对的新的向量化表示， hi,j为情感子句i和原因子句j构成的候选子句对的向量化表示， n为待预测文档中的子句数量， hi,m为情感子句i和原因子句集中任一子句构成的候选子句对的向量化表示， dj,m为原因子句j与原因子句集中任一子句间的距离，为高斯先验， ∝4和b4为训练参数。 6.如权利要求1所述的情感 ‑原因对抽取方法，其特征在于，所述根据每个候选子句对的新的向量化表示进行情感 ‑原因对的预测的步骤包括：将候选子句对的新的向量化表示输入到第二预测公式，第二预测公式为：其中，为子句i与子句j构成的候选子句对的新的向量化表示的预测值，为候选子句对的新的向量化表示， Wh和bh为训练参数。 7.如权利要求1所述的情感 ‑原因对抽取方法，其特征在于，所述情感 ‑原因对抽取方法还包括：将训练文档输入到语言模型中，得到所述训练文档中每个子句的向量化表示；将所述每个子句的向量化表示输入情感‑原因对抽取模型中，基于所述情感‑原因对抽取模型得到联合损失；根据所述联合损失梯度更新所述情感 ‑原因对抽取模型的训练参数；检测联合损失是否收敛；权　利　要　求　书 2/4 页 3 CN 114357164 A 3

专利 情感-原因对抽取方法、装置、设备及可读存储介质

专利情感-原因对抽取方法、装置、设备及可读存储介质