专利 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111303694.2 (22)申请日 2021.11.05 (71)申请人哈尔滨工业大学（深圳）地址 518055 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区 (72)发明人王轩　张加佳　漆舒汉　袁昊　刘洋　唐琳琳　夏文　廖清　李君一　杜明欣　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 代理人李斌 (51)Int.Cl. G06N 3/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 20/00(2019.01) (54)发明名称基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置 (57)摘要本发明公开了一种基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置，包括下述步骤：获取非完全博弈环境，确定任务目标；构建第一神经网络和基于未来值预测的强化学习方法；构建事后经验回顾池；对第一神经网络进行训练，直至第一神经网络收敛；构建渐进式神经网络，实现网络模型的渐进式扩展；选择下一个任务作为任务目标，利用基于未来值预测的强化学习方法持续训练，直至所有的任务都训练完成。本发明通过使用非完全信息博弈场景中丰富的智能体状态变化作为监督信号，解决该环境下的奖励稀疏问题，同时引入持续学习框架渐进式神经网络对未来值预测网络结构进行动态扩展，解决了在该环境下的多任务场景中的灾难性遗忘的问题。权利要求书3页说明书16页附图7页 CN 114048834 A 2022.02.15 CN 114048834 A 1.基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法，其特征在于，包括下述步骤：获取非完全博弈环境，根据课程学习设计智能体在该非完全博弈环境中的所要完成的任务目标序列，基于任务目标序列确定任务目标；根据当前非完全博弈环境构建第一神经网络和基于未来值预测的强化学习方法，所述第一神经网络通过智能体在非完全博弈环境中作出决策来收集状态数据和动作数据；所述基于未来值预测的强化学习方法使用整体状态和标量奖励共同形式化，将感知量、测量值向量以及目标感知量作为输入流，所述感知量是强化学习中有关博弈状态的表征，所述测量值向量是一组维度较低的表征当前智能体状态好坏的向量；所述目标感知量是维度与测量值相同的标量，用来表征测量值变化带来的收益。构建事后经验回顾池，所述事后经验回顾是通过将奖励函数推广为更加广泛的目标奖励函数实现对失败的任务的轨迹进行学习，加速学习的过程以及解决环境奖励稀疏的问题；所述事后经验回顾池用于存放智能体与非完全博弈环境进行交互获取的交互数据，所述交互数据包括状态数据和动作数据；基于交互数据和基于未来值预测的强化学习方法对第一神经网络进行训练，直至第一神经网络收敛；构建第二神经网络，所述第二神经网络与第一神经网络结构相同，所训练的任务不同，将第二神经网络加入到第一神经网络中构建渐进式神经网络，实现网络模型的渐进式扩展；选择任务序列中的下一个任务作为任务目标，利用基于未来值预测的强化学习方法持续训练，直至所有的任务都训练完成。 2.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法，其特征在于，所述任务目标序列是根据任务的难易程度设计的，即在一个序列的任务 [v1， v2...， vn]中，顶点v1是入度为0的任务，即课程的开始，在任务序列中vi∈vj s.t.i＜j，任务vi在逻辑上先于vj且难度应小于vj。 3.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法，其特征在于，所述基于未来值预测的强化学习方法具体为：假设观测值的结构为： ot＝<st， mt， b>，其中st是原始的非完全博弈环境状态输入， mt是一组智能体状态的测量值， b是智能体要达到的某一状态，令τ1， τ2... τn作为一组时间步的偏移量，令是未来的测量值向量和当前的测量值向量的对应差值向量，智能体的目标是u(f： g)最大化： u(f： g)＝gTf 向量g作为参数化的智能体的目标，对于预测未来的测量值向量，使用参数化的函数逼近器，用F表示：其中， a∈A是动作， A表示智能体所能采取的行为， θ是要学习的F的参数，并且表征预测结果，的维度和未来值向量f以及目标向量g的维度相匹配，因此，智能体学习的策略就是得到产生最佳预测结果的操作：权　利　要　求　书 1/3 页 2 CN 114048834 A 2at＝argmaxa∈AgTf(ot， a， g， b； θ )。 4.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法，其特征在于，所述事后经验回顾池采用事后经验回放算法构建，具体如下：首先对传统的奖励函数rt＝R(st， at)，引入额外的目标go al，根据是否到达该目标获得奖励，即为rt＝R(st， at， gt)。其中st为状态， at为在状态st时所采取的动作， rt为环境反馈的奖励值，在算法中，会将经验池中的数据(st， at， rt， g， st+1)提取出来，对其重新构造一个新的目标g`t进行奖励重塑，得到(st， at， r`t， g`， st+1)，来实现对经验的重复利用。 5.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法，其特征在于，所述交互数据通过下述方式获取：通过非完全信息博弈模拟环境生成状态数据并输入到第一神经网络，第一神经网络产生合法的动作并返回给模拟环境，环境根据神经网络产生的动作给出得分以及下一个环境状态，将以上生成的变量合并为经验记录，并将经验记录进行重塑生成新的经验记录放入事后回顾经验池。 6.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法，其特征在于，所述渐进神经网络以单列开始：对于第一个任务t1，一个L层的深度神经网络且带有隐藏激活层当该L层神经网络已经在任务t1上训练收敛，当切换到任务t2时，第一列的参数Θ(1)被 “冻结”，然后在原来的模型中新增第二列Θ(2)且将其参数实例化，其中隐藏层通过横向来连接从和接收输入，推广到第K个任务：式中，是投影矩阵，对于卷积层，通过1x1的卷积进行降维。 7.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法，其特征在于，所述基于交互数据和基于未来值预测的强化学习方法对第一神经网络进行训练，直至第一神经网络收敛，具体为：从所述非完全博弈环境中获取i时刻的环境状态输入si，通过第一神经网络的推导得到动作ai，然后未来值预测算法会进行未来值的预测，得到未来值oi，将其存入经验池，训练时，首先对经验池中的数据使用事后回顾算法扩充数据，然后神经网络按照权利三所述的未来值预测算法的目标进行回归训练，假设收集的一组经验D＝(oi， ai， gi， bi， fi)，其中(oi， ai， gi， bi)是输入， fi是经过i的输出，其损失函数为：随着不断收集新的经验，智能体使用的训练集D和预测函数也会发生变化，在经验池保留最大M个最近的经验，每轮小批量地选择其中N个例子用于预测网络的迭代训练。 8.基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈系统，其特征在于，应用于权利要求 1‑7中任一项所述的基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法，包括环境获取模块、网络构建模块、事后经验回顾池构建模块、第一训练模块、渐进式神经网络模块以及第二训练模块；权　利　要　求　书 2/3 页 3 CN 114048834 A 3

专利 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置

专利基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置