(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111303694.2
(22)申请日 2021.11.05
(71)申请人 哈尔滨工业大 学 (深圳)
地址 518055 广东省深圳市南 山区桃源街
道深圳大 学城哈尔滨工业大 学校区
(72)发明人 王轩 张加佳 漆舒汉 袁昊
刘洋 唐琳琳 夏文 廖清
李君一 杜明欣
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
代理人 李斌
(51)Int.Cl.
G06N 3/00(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06N 20/00(2019.01)
(54)发明名称
基于事后回顾和渐进式扩展的持续强化学
习非完全信息博弈方法及装置
(57)摘要
本发明公开了一种基于事后回顾和渐进式
扩展的持续强化学习非完全信息博弈方法及装
置, 包括下述步骤: 获取 非完全博弈环境, 确定任
务目标; 构建第一神经网络和基于未来值预测的
强化学习方法; 构建事后经验回顾池; 对第一神
经网络进行训练, 直至第一神经网络收敛; 构建
渐进式神经网络, 实现网络模型的渐进式扩展;
选择下一个任务作为任务目标, 利用基于未来值
预测的强化学习方法持续训练, 直至所有的任务
都训练完成。 本发明通过使用非完全信息博弈场
景中丰富的智能体状态变化作为监督信号, 解决
该环境下的奖励稀疏问题, 同时引入持续学习框
架渐进式神经网络对未来值预测网络结构进行
动态扩展, 解决了在该环境下的多任务场景中的
灾难性遗 忘的问题。
权利要求书3页 说明书16页 附图7页
CN 114048834 A
2022.02.15
CN 114048834 A
1.基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法, 其特征在于, 包
括下述步骤:
获取非完全博弈环境, 根据课程学习设计智能体在该非完全博弈环境中的所要完成的
任务目标序列, 基于任务目标序列确定任务目标;
根据当前非完全博弈环境构建第 一神经网络和基于未来值预测的强化学习方法, 所述
第一神经网络通过智能体在非完全博弈环境中作出决策来收集状态数据和动作数据; 所述
基于未来值预测的强化学习方法使用整体状态和标量奖励共同形式化, 将感知量、 测量值
向量以及目标感知量作为输入流, 所述感知量是强化学习中有关博弈状态的表征, 所述测
量值向量是一组维度较低的表征当前智能体状态 好坏的向量; 所述目标感知量是维度与测
量值相同的标量, 用来表征测量 值变化带来的收益。
构建事后经验回顾池, 所述事后经验回顾是通过将奖励函数推广为更加广泛的目标奖
励函数实现对失败的任务的轨迹进行学习, 加速学习的过程以及解决环境奖励稀疏的问
题; 所述事后经验回顾池用于存放智能体与非完全博弈环境进行交互获取 的交互数据, 所
述交互数据包括状态数据和动作数据;
基于交互数据和基于未来值预测的强化学习方法对第 一神经网络进行训练, 直至第 一
神经网络收敛;
构建第二神经网络, 所述第 二神经网络与第一神经网络结构相同, 所训练的任务不同,
将第二神经网络加入到第一神经网络中构建渐进式神经网络, 实现网络模型的渐进式扩
展;
选择任务序列中的下一个任务作为任务目标, 利用基于未来值预测的强化学习方法持
续训练, 直至所有的任务都训练完成。
2.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信 息博弈方
法, 其特征在于, 所述任务目标序列是根据任务的难易程度设计的, 即在一个序列的任务
[v1, v2..., vn]中, 顶点v1是入度为0的任务, 即课程的开始, 在任务序列中vi∈vj s.t.i<j,
任务vi在逻辑上 先于vj且难度应小于vj。
3.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信 息博弈方
法, 其特征在于, 所述基于未来 值预测的强化学习方法具体为:
假设观测值的结构为: ot=<st, mt, b>, 其中st是原始的非完全博弈环境状态输入, mt是
一组智能体状态的测量值, b是智能体要达到的某一状态, 令τ1, τ2... τn作为一组时间步的
偏移量, 令
是未来的测量值向量和当前的测量值向量的
对应差值向量, 智能体的目标 是u(f: g)最大化:
u(f: g)=gTf
向量g作为参数化的智能体的目标, 对于预测未来的测量值向量, 使用参数化的函数逼
近器, 用F表示:
其中, a∈A是动作, A表示智能体所 能采取的行为, θ是要学习的F的参数, 并且
表征预
测结果,
的维度和未来值向量f以及目标向量g的维度相匹配, 因此, 智能体学习的策略就
是得到产生 最佳预测结果的操作:权 利 要 求 书 1/3 页
2
CN 114048834 A
2at=argmaxa∈AgTf(ot, a, g, b; θ )。
4.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信 息博弈方
法, 其特征在于, 所述事后经验回顾池 采用事后经验回放 算法构建, 具体如下:
首先对传统的奖励函数rt=R(st, at), 引入额外的目标go al, 根据是否到达该目标获得
奖励, 即为rt=R(st, at, gt)。 其中st为状态, at为在状态st时所采取的动作, rt为环境反馈的
奖励值, 在算法中, 会将经验池 中的数据(st, at, rt, g, st+1)提取出来, 对其重新构造一个新
的目标g`t进行奖励重塑, 得到(st, at, r`t, g`, st+1), 来实现对经验的重复利用。
5.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信 息博弈方
法, 其特征在于, 所述交 互数据通过 下述方式获取:
通过非完全信 息博弈模拟环境生成状态数据并输入到第 一神经网络, 第 一神经网络产
生合法的动作并返回给模拟环境, 环境根据神经网络产生的动作给出得分以及下一个环境
状态, 将以上生成的变量合并为经验记录, 并将经验记录进行重塑生成新的经验记录放入
事后回顾经验 池。
6.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信 息博弈方
法, 其特征在于, 所述渐进神经网络以单列开始: 对于第一个任务t1, 一个L层的深度神经网
络且带有隐藏激活层
当该L层神经网络已经在任务t1上训练收敛, 当切换
到任务t2时, 第一列的参数Θ(1)被 “冻结”, 然后在原来的模型中新增第二列Θ(2)且将其
参数实例化, 其中隐藏层
通过横向来连接从
和
接收输入, 推广到第K个任务:
式中,
是投影矩阵, 对于卷积层, 通过1x1的卷积进行降维。
7.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信 息博弈方
法, 其特征在于, 所述基于交互数据和基于未来值预测的强化学习 方法对第一神经网络进
行训练, 直至第一神经网络收敛, 具体为:
从所述非完全博弈环境中获取i时刻的环境状态输入si, 通过第一神经网络的推导得到
动作ai, 然后未来值预测算法会进行未来值的预测, 得到未来值oi, 将其存入经验池, 训练
时, 首先对经验池中的数据使用事后回顾算法扩充数据, 然后神经网络按照权利三所述的
未来值预测算法的目标进行回归训练, 假设收集的一组经验D=(oi, ai, gi, bi, fi), 其中(oi,
ai, gi, bi)是输入, fi是经过i的输出, 其损失函数为:
随着不断收集新的经验, 智能体使用的训练集D和预测函数也会发生变化, 在经验池保
留最大M个最近的经验, 每 轮小批量 地选择其中N个例子用于预测网络的迭代训练。
8.基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈系统, 其特征在于, 应
用于权利要求 1‑7中任一项 所述的基于事后回顾和渐进式扩展的持续 强化学习非完全信息
博弈方法, 包括环境 获取模块、 网络构建模块、 事后经验回顾池构建模块、 第一训练模块、 渐
进式神经网络模块以及第二训练模块;权 利 要 求 书 2/3 页
3
CN 114048834 A
3
专利 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:01:37上传分享