专利 对话模型训练、对话生成方法、系统、计算机和存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111338580.1 (22)申请日 2021.11.12 (71)申请人北京明略软件系统有限公司地址 100089 北京市海淀区中关村东路1号院1号楼10层A10 02 (72)发明人刘伟硕　 (74)专利代理机构青岛清泰联信知识产权代理有限公司 3725 6 代理人栾瑜 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 16/338(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称对话模型训练、对话生成方法、系统、计算机和存储介质 (57)摘要本申请涉及一种对话模型训练、对话生成方法、系统、计算机和存储介质，其中，对话模型包括生成器和判别器，该对话模型训练方法包括：数据集获取步骤，获取包括样本语句及其真实回复语句的训练数据集；判别器训练步骤，将样本语句输入生成器生成伪造回复语句，将其结合真实回复语句构造判别器训练集后，输入判别器判别是否真实；生成器训练优化步骤，获取判别器训练步骤的判别结果，基于判别器的判别结果抑制或放大样本的损失数值，直至生成器的损失函数不再下降；交替训练步骤，交替执行生成器训练优化步骤或判别器训练步骤，直至判别器及生成器的损失函数均不再下降。通过本申请，提高对话模型的鲁棒性和准确率，提高对话生成的准确率。权利要求书2页说明书11页附图4页 CN 114090751 A 2022.02.25 CN 114090751 A 1.一种对话模型训练方法，其特征在于，所述对话模型包括生成器和判别器，所述方法包括：数据集获取步骤，获取训练数据集，所述训练数据集包括若干由样本语句及其真实回复语句组成的真实语句对；判别器训练步骤，通过一样本选择器将所述样本语句输入所述生成器生成伪造回复语句，基于所述伪造回复语句及真实回复语句构造判别器训练集后，输入所述判别器判别是否真实；生成器训练优化步骤，获取所述判别器训练步骤的判别结果，基于所述判别器的判别结果抑制或放大所述判别结果对应样本的损失数值，直至所述生成器的损失函数不再下降；交替训练步骤，以所述判别器的损失函数或所述生成器的损失函数不在下降作为交替条件，交替执行所述生成器训练优化步骤或所述判别器训练步骤，直至所述判别器及生成器的损失函数均不再下降。 2.根据权利要求1所述的对话模型训练方法，其特征在于，所述判别器训练步骤进一步包括：伪造回复获取步骤，通过所述样本选择器抽取所述样本语句输入至所述生成器，通过所述生成器生成伪造回复语句；判别器训练集获取步骤，抽取一设定比例的所述真实回复语句，利用所述真实回复语句和所述伪造回复语句构建判别器训练集；判别器训练步骤，输入所述判别器训练集至所述判别器，所述判别器判别所述判别器训练集中语句为真实或伪造；判别器训练优化步骤，重复执行所述伪造回复获取步骤、判别器训练集获取步骤及判别器训练步骤，直至所述判别器的损失函数不再下降。 3.根据权利要求2所述的对话模型训练方法，其特征在于，所述生成器训练优化步骤中，抑制或放大所述判别结果对应样本的损失数值进一步包括：若所述伪造回复语句的判别结果为伪造，则将该伪造回复语句对应样本的损失数值乘一放大参数α；若所述伪造回复语句的判别结果为真实，则将该伪造回复语句对应样本的损失数值乘一抑制参数β，其中， α ＞1， β ＜1。 4.根据权利要求2或3所述的对话模型训练方法，其特征在于，所述生成器训练优化步骤中，抑制或放大所述判别结果对应样本的损失数值还包括：若所述伪造回复语句的判别结果为伪造的次数为n次，则将该伪造回复语句对应样本的损失数值乘一放大参数αn；若所述伪造回复语句的判别结果为真实的次数为n次，则将该伪造回复语句对应样本的损失数值乘一抑制参数βn，其中， α ＞1， β ＜1， n>1。 5.一种对话生成方法，其特征在于，包括：用户查询获取步骤，获取用户输入的查询语句；回复语句生成步骤，使用生成器作为对话生成模型，将所述查询语句输入所述生成器，得到与所述查询语句对应的回复语句；权　利　要　求　书 1/2 页 2 CN 114090751 A 2其中，所述生成器是采用权利要求1至4中任一项所述的对话模型训练方法训练得到。 6.一种对话模型训练系统，其特征在于，所述对话模型包括生成器和判别器，所述系统包括：数据集获取模块，用于获取训练数据集，所述训练数据集包括若干由样本语句及其真实回复语句组成的真实语句对；判别器训练模块，用于通过一样本选择器将所述样本语句输入所述生成器生成伪造回复语句，基于所述伪造回复语句及真实回复语句构造判别器训练集后，输入所述判别器判别是否真实；生成器训练优化模块，用于获取所述判别器训练模块的判别结果，基于所述判别器的判别结果抑制或放大所述判别结果对应样本的损失数值，直至所述生成器的损失函数不再下降；交替训练模块，用于以所述判别器的损失函数或所述生成器的损失函数不在下降作为交替条件，交替执行所述生成器训练优化模块或所述判别器训练模块，直至所述判别器及生成器的损失函数均不再下降。 7.根据权利要求6所述的对话模型训练系统，其特征在于，所述判别器训练模块进一步包括：伪造回复获取模块，用于通过所述样本选择器抽取所述样本语句输入至所述生成器，通过所述生成器生成伪造回复语句；判别器训练集获取模块，用于抽取一设定比例的所述真实回复语句，利用所述真实回复语句和所述伪造回复语句构建判别器训练集；判别器训练模块，用于输入所述判别器训练集至所述判别器，所述判别器判别所述判别器训练集中语句为真实或伪造；判别器训练优化模块，用于重复执行所述伪造回复获取模块、判别器训练集获取模块及判别器训练模块，直至所述判别器的损失函数不再下降。 8.一种对话生成系统，其特征在于，包括：用户查询获取模块，用于获取用户输入的查询语句；回复语句生成模块，用于使用生成器作为对话生成模型，将所述查询语句输入所述生成器，得到与所述查询语句对应的回复语句；其中，所述生成器是采用权利要求1至4中任一项所述的对话模型训练方法训练得到。 9.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求 1至 4中任一项所述的对话模型训练方法。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4中任一项所述的对话模型训练方法。权　利　要　求　书 2/2 页 3 CN 114090751 A 3

专利 对话模型训练、对话生成方法、系统、计算机和存储介质

专利对话模型训练、对话生成方法、系统、计算机和存储介质