(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111338580.1
(22)申请日 2021.11.12
(71)申请人 北京明略软件系统有限公司
地址 100089 北京市海淀区中关村东路1号
院1号楼10层A10 02
(72)发明人 刘伟硕
(74)专利代理 机构 青岛清泰联信知识产权代理
有限公司 3725 6
代理人 栾瑜
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 16/33(2019.01)
G06F 16/338(2019.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
对话模型训练、 对话生 成方法、 系统、 计算机
和存储介质
(57)摘要
本申请涉及一种对话模 型训练、 对话生 成方
法、 系统、 计算机和存储介质, 其中, 对话模型包
括生成器和判别器, 该对话模型训练方法包括:
数据集获取步骤, 获取包括样 本语句及其真实回
复语句的训练数据集; 判别器训练步骤, 将样本
语句输入生成器生成伪造回复语句, 将其结合真
实回复语句构造判别器训练集后, 输入判别器判
别是否真实; 生成器训练优化步骤, 获取判别器
训练步骤的判别结果, 基于判别器的判别结果抑
制或放大样 本的损失数值, 直至生成器的损失函
数不再下降; 交替训练步骤, 交替执行生成器训
练优化步骤或判别器训练步骤, 直至判别器及生
成器的损失函数均不再下降。 通过本申请, 提高
对话模型的鲁棒性和准确率, 提高对话生成的准
确率。
权利要求书2页 说明书11页 附图4页
CN 114090751 A
2022.02.25
CN 114090751 A
1.一种对话模型训练方法, 其特征在于, 所述对话模型包括生成器和判别器, 所述方法
包括:
数据集获取步骤, 获取训练数据集, 所述训练数据集包括若干由样本语句及其真实回
复语句组成的真实语句对;
判别器训练步骤, 通过一样本选择器将所述样本语句输入所述生成器生成伪 造回复语
句, 基于所述伪造回复语句及真实回复语句构造判别器训练集后, 输入所述判别器判别是
否真实;
生成器训练优化步骤, 获取所述判别器训练步骤的判别结果, 基于所述判别器的判别
结果抑制或放大所述判别结果对应样本的损失数值, 直至所述生成器的损失函数不再下
降;
交替训练步骤, 以所述判别器的损失函数或所述生成器的损失函数不在下降作为交替
条件, 交替执行所述生成器训练优化步骤或所述判别器训练步骤, 直至所述判别器及生成
器的损失函数均不再 下降。
2.根据权利要求1所述的对话模型训练方法, 其特征在于, 所述判别器训练步骤进一步
包括:
伪造回复获取步骤, 通过所述样本选择器抽取所述样本语句输入至所述生成器, 通过
所述生成器生成伪造回复语句;
判别器训练集获取步骤, 抽取一设定比例的所述真实回复语句, 利用所述真实回复语
句和所述伪造回复语句构建判别器训练集;
判别器训练步骤, 输入所述判别器训练集至所述判别器, 所述判别器判别所述判别器
训练集中语句为真实或伪造;
判别器训练优化步骤, 重复执行所述伪造回复获取步骤、 判别器训练集获取步骤及判
别器训练步骤, 直至所述判别器的损失函数不再 下降。
3.根据权利要求2所述的对话模型训练方法, 其特征在于, 所述生成器训练优化步骤
中, 抑制或放大 所述判别结果对应样本的损失数值进一 步包括:
若所述伪 造回复语句的判别结果为伪 造, 则将该伪 造回复语句对应样本的损失数值乘
一放大参数α;
若所述伪 造回复语句的判别结果为真实, 则将该伪 造回复语句对应样本的损失数值乘
一抑制参数β, 其中, α >1, β <1。
4.根据权利要求2或3所述的对话模型训练方法, 其特征在于, 所述生成器训练优化步
骤中, 抑制或放大 所述判别结果对应样本的损失数值还 包括:
若所述伪造回复语句的判别结果为伪造的次数为n次, 则将该伪造回复语句对应样本
的损失数值乘一 放大参数αn;
若所述伪造回复语句的判别结果为真实的次数为n次, 则将该伪造回复语句对应样本
的损失数值乘一抑制参数βn, 其中, α >1, β <1, n>1。
5.一种对话 生成方法, 其特 征在于, 包括:
用户查询获取步骤, 获取用户输入的查询语句;
回复语句生成步骤, 使用生成器作为对话生成模型, 将所述查询语句输入所述生成器,
得到与所述 查询语句对应的回复语句;权 利 要 求 书 1/2 页
2
CN 114090751 A
2其中, 所述 生成器是采用权利要求1至4中任一项所述的对话模型训练方法训练得到 。
6.一种对话模型训练系统, 其特征在于, 所述对话模型包括生成器和判别器, 所述系统
包括:
数据集获取模块, 用于获取训练数据集, 所述训练数据集包括若干由样本语句及其真
实回复语句组成的真实语句对;
判别器训练模块, 用于通过一样本选择器将所述样本语句输入所述生成器生成伪 造回
复语句, 基于所述伪造回复语句及真实回复语句构造判别器训练集后, 输入所述判别器判
别是否真实;
生成器训练优化模块, 用于获取所述判别器训练模块的判别结果, 基于所述判别器的
判别结果抑制或放大所述判别结果对应样本的损失数值, 直至所述生成器的损失函数不再
下降;
交替训练模块, 用于以所述判别器的损失函数或所述生成器的损失函数不在下降作为
交替条件, 交替执行所述生成器训练优化模块或所述判别器训练模块, 直至所述判别器及
生成器的损失函数均不再 下降。
7.根据权利要求6所述的对话模型训练系统, 其特征在于, 所述判别器训练模块进一步
包括:
伪造回复获取模块, 用于通过所述样本选择器抽取所述样本语句输入至所述生成器,
通过所述生成器生成伪造回复语句;
判别器训练集获取模块, 用于抽取一设定比例的所述真实回复语句, 利用所述真实回
复语句和所述伪造回复语句构建判别器训练集;
判别器训练模块, 用于输入所述判别器训练集至所述判别器, 所述判别器判别所述判
别器训练集中语句为真实或伪造;
判别器训练优化模块, 用于重复执行所述伪造回复获取模块、 判别器训练集获取模块
及判别器训练模块, 直至所述判别器的损失函数不再 下降。
8.一种对话 生成系统, 其特 征在于, 包括:
用户查询获取模块, 用于获取用户输入的查询语句;
回复语句生成模块, 用于使用生成器作为对话生成模型, 将所述查询语句输入所述生
成器, 得到与所述 查询语句对应的回复语句;
其中, 所述 生成器是采用权利要求1至4中任一项所述的对话模型训练方法训练得到 。
9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器上并可在所述处理器
上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至
4中任一项所述的对话模型训练方法。
10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器
执行时实现如权利要求1至4中任一项所述的对话模型训练方法。权 利 要 求 书 2/2 页
3
CN 114090751 A
3
专利 对话模型训练、对话生成方法、系统、计算机和存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:02:34上传分享