专利 评论文本分析方法、模型训练方法、装置、设备及介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111645301.6 (22)申请日 2021.12.2 9 (71)申请人完美世界（北京）软件科技发展有限公司地址 100000 北京市海淀区上地东路1号院 5号楼7层701-14 (72)发明人杨辰灏　董博　 (74)专利代理机构北京众达德权知识产权代理有限公司 1 1570 代理人张桂蓉 (51)Int.Cl. G06F 16/35(2019.01) G06N 20/00(2019.01) A63F 13/87(2014.01) (54)发明名称评论文本分析方法、模型训练方法、装置、设备及介质 (57)摘要本发明公开了一种评论文本分析方法、模型训练方法、装置、设备及介质，应用于数据处理领域，所述方法包括：获取针对目标对象的评论文本；通过M个情感分类模型分别对评论文本进行情感分类预测，得到评论文本的M个子情感分类结果；基于投票机制处理所述M个子情感分类结果，得到评论文本的情感类别。通过本发明技术方案可以提高对于目标对象的评论文本的情感分析准确性。权利要求书3页说明书14页附图3页 CN 114297384 A 2022.04.08 CN 114297384 A 1.一种评论文本分析方法，其特征在于，包括：获取针对目标对象的评论文本；通过M个情感分类模型分别对所述评论文本进行情感分类预测，得到所述评论文本的M 个子情感分类结果，其中，所述M个情感分类模型是由M个不同的样本数据子集一一对应训练而成， M为大于2的整数；基于投票机制处理所述M个子情感分类结果，得到所述评论文本的情感类别。 2.如权利要求1所述的方法，其特征在于，所述M个情感分类模型是基于同一原始模型训练而成，所述M个子情感分类结果包括由所述M个情感分类模型对应输出的M个情感标签；所述基于投票机制处理所述M个子情感分类结果，得到所述评论文本的情感类别，包括：将所述M个情感分类模型中输出同一种情感标签的各个情感分类模型的投票权重进行加和计算，得到每种情感标签各自对应的加和结果；对比不同种情感标签对应的加和结果，确定出所述评论文本的情感类别。 3.如权利要求1所述的方法，其特征在于，所述M个情感分类模型包括基于原始模型不同划分的多个模型分组，每一模型分组对应相同的原始模型，且所述M个子情感分类结果包括由所述M个情感分类模型对应输出的M个情感标签；所述基于投票机制处理所述M个子情感分类结果，得到所述评论文本的情感类别，包括：针对每个模型分组，将组内输出同一种情感标签的各个情感分类模型的投票权重进行加和计算，得到组内投票结果；将每个模型分组的组内投票结果以及投票权重进行加权和计算，得到所述评论文本的情感类别。 4.如权利要求1所述的方法，其特征在于，所述M个情感分类模型是基于同一原始模型训练而成，且所述M个子情感分类结果包括由所述M个情感分类模型对应输出的M个子情感概率；所述基于投票机制处理所述M个子情感分类结果，得到所述评论文本的情感类别，包括：根据所述M个情感分类模型各自的投票权重与所述M个子情感概率进行加权和计算，得到所述评论文本的情感概率；根据所述情感概率，确定所述评论文本的情感类别。 5.如权利要求1所述的方法，其特征在于，所述M个情感分类模型包括基于原始模型不同划分的多个模型分组，每一模型分组对应相同的原始模型，且所述M个子情感分类结果包括由所述M个情感分类模型对应输出的M个子情感概率；所述基于投票机制处理所述M个子情感分类结果，得到所述评论文本的情感类别，包括：针对每个模型分组，根据组内各个情感分类模型的投票权重与子情感概率进行加权和计算，得到所述评论文本的组内情感判定结果，并根据所述组内情感判定结果，确定所述评论文本的组内投票结果；将每个模型分组的组内投票结果以及投票权重进行加权和计算，得到所述评论文本的情感类别。 6.如权利要求1所述的方法，其特征在于，在得到所述评论文本的M个子情感分类结果权　利　要　求　书 1/3 页 2 CN 114297384 A 2之后，还包括：针对所述评论文本的M个情感分类结果进行核验，形成针对所述评论文本的核验记录，所述核验记录用于表征所述M个情感分类模型对所述评论文本的情感分类结果是否正确；根据多条评论文本对应的核验记录，形成核验数据集。 7.如权利要求6所述的方法，其特征在于，在所述形成核验数据集之后，还包括：分别将所述M个情感分类模型作为目标分类模型；基于所述核验数据集对所述目标分类模型进行评估，得到所述目标分类模型的历史误判值；采用与所述历史误判值对应的更新方式，对所述目标分类模型和/或所述目标分类模型的投票权重进行更新。 8.如权利要求1 ‑7中任一所述的方法，其特征在于，所述方法还包括训练得到所述M个情感分类模型的步骤：根据获取的历史数据集构建K个不同的样本数据子集， K为大于或等于M的整数，其中，所述历史数据集包括游戏用户的历史评论文本；利用所述K个不同的样本数据子集一一对应的对原始模型进行训练，得到K个情感分类模型，其中，所述K个情感分类模型属于同一原始模型或者多种不同原始模型训练而成；从所述K个情感分类模型中，筛选出所述M个情感分类模型，其中，所述M个情感分类模型包括基于原始模型不同划分的至少一个模型分组，每个模型分组包括基于同一原始模型训练而成的至少两个情感分类模型。 9.如权利要求8所述的方法，其特征在于，所述根据获取的历史数据集构建K个不同的样本数据子集，包括：对所述历史数据集进行数据预处理，得到原始样本数据集，所述原始样本数据集中不同标签的训练样本满足第一样本比例；基于所述第一样本比例和第二样本比例，确定每种标签的训练样本的采样方式，所述第二样本比例为样本数据子集中不同标签的训练样本满足的比例；基于确定出的采样方式，针对所述原始样本数据集执行采样，得到K个不同的样本数据子集。 10.一种文本分析模型训练方法，其特征在于，包括：根据获取的历史数据集构建K个不同的样本数据子集， K为大于或等于M的整数，其中，所述历史数据集包括用户的历史评论文本；利用所述K个不同的样本数据子集一一对应的对原始模型进行训练，得到K个情感分类模型，其中，所述K个情感分类模型基于同一原始模型或者多种不同原始模型训练而成；从所述K个情感分类模型中，筛选出M个情感分类模型，其中，所述M个情感分类模型包括基于原始模型不同划分的至少一个模型分组，每个模型分组包括基于同一原始模型训练而成的至少两个情感分类模型。 11.一种评论文本分析装置，其特征在于，包括：文本获取单元，用于获取针对目标对象的评论文本；分类预测单元，用于通过M个情感分类模型分别对所述评论文本进行情感分类预测，得到所述评论文本的M个子情感分类结果，其中，所述M个情感分类模型是由M个不同的样本数权　利　要　求　书 2/3 页 3 CN 114297384 A 3

专利 评论文本分析方法、模型训练方法、装置、设备及介质

专利评论文本分析方法、模型训练方法、装置、设备及介质