(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111303688.7
(22)申请日 2021.11.05
(71)申请人 哈尔滨工业大 学 (深圳)
地址 518055 广东省深圳市南 山区桃源街
道深圳大 学城哈尔滨工业大 学校区
(72)发明人 王轩 漆舒汉 张加佳 于梓元
刘洋 唐琳琳 夏文 廖清 蒋琳
张丹丹
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
代理人 李斌
(51)Int.Cl.
G06N 3/00(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06N 20/00(2019.01)
(54)发明名称
基于神经网络虚拟自我对局的多人、 大规模
非完全信息博弈方法及装置
(57)摘要
本发明公开了一种基于神经网络虚拟自我
对局的多人、 大规模非完全信息博弈方法及装
置, 本发明在传统的神经网络虚拟自我对局NFSP
算法的基础上引入了优先级经验采样机制和优
先级加权的程度控制机制, 根据经验片段的学习
价值设置优 先级来过滤记忆库中的经验, 对于优
先经验的存储和采样, 采用求和树的数据结构,
以时间复杂 度实现优先级经验采样, 降低NFSP训
练过程中与环境交互的代价, 加快求解速度; 同
时使用马尔科夫决策过程对扩展式博弈进行建
模, 将多人博弈转化成单个智能体与环境的交互
过程, 可看作单个智能体和环境的二人博弈, 将
NFSP的应用范围拓展至多人博弈, 增强算法的泛
用性。
权利要求书3页 说明书17页 附图4页
CN 114048833 A
2022.02.15
CN 114048833 A
1.基于神经网络虚拟自我对局的多人、 大规模非完全信 息博弈方法, 其特征在于, 包括
下述步骤:
智能体与虚拟对手在博弈环境中博弈产生经验片段, 所述经验片段保存到最优反应记
忆库中, 用于最优反应网络的训练更新; 如果智能体依照概率选择的是最优反应, 则将最优
反应经验片段保存到平均策略记忆库中, 用于平均策略的学习更新; 其中, 所述最优反应是
通过神经网络虚拟自我对局NFSP算法中的强化学习算法DQN来实现, 所述平均策 略是通过
神经网络虚拟自我对局NFS P算法中的监 督学习的方式获得;
智能体在博弈环境中博弈并积累经验片段, 当平均策略记忆库中的经验片段达到一定
数量时, 开始智能体输出 策略的训练提升;
将优先级经验采样机制引入到NFSP算法的最优反应网络中, 根据经验片段的学习价值
设置优先级来过滤最优反应记忆库中的经验片段, 用求和树来保存增加了优先级属性的经
验片段, 并在采样阶段以优先级作为衡量标准进行优先级采样, 实现对有价值的经验片段
优先学习, 学习后重新计算优先级, 并对求和树进行 更新;
采用优先级加权的学习程度控制机制进行经验片段学习程度的优化, 通过调整训练中
经验片段的学习次数来实现对不同价 值经验片段 学习程度的控制;
在进行多智能体博弈时, 使用马尔科夫 决策过程MDP对拓展式博弈进行重新建模, 以模
拟多智能体博 弈环境;
在每个智能体都拥有私有记忆库的前提下, 进一步增加共有记忆库, 提高学习效果; 所
述私有记忆库用于独立保存单个智能体相关的经验片段; 所述共有记忆库用于存博弈过程
中产生的所有经验片段。
2.根据权利要求1所述基于神经网络虚拟自我对局的多人、 大规模非完全信息博弈方
法, 其特征在于, 智能体在博弈环境中采用混合行动策略与虚拟对手进 行博弈, 即通过动态
预期参数依概 率选择最优反应和平均策略来对抗虚拟对手的平均策略。
3.根据权利要求1所述基于神经网络虚拟自我对局的多人、 大规模非完全信息博弈方
法, 其特征在于, 所述智能体在博弈环境中博弈并积累经验片段, 当平均策略记忆库中的经
验片段达 到一定数量时, 便开始智能体输出 策略的训练提升, 具体为:
通过采样最优反应记忆库的经验片段来更新最优反应网络的参数; 当平均 策略记忆库
中的最优反应经验片段积累到一定数量后, 触发平均策略网络的更新, 采样最优反应记忆
库中的最优反应经验片段进行监督学习, 拟合博弈智能体最优表现, 如此进行策略的不断
训练提升, 依据收敛性理论保障, 平均策略逐步收敛到 近似纳什均衡;
所述经验片段的优先级是通过TD ‑error的大小来衡量的, TD ‑error越大, 说明经验片
段越值得 学习, 优先级也 就越高; 所述优先级表示如下:
其中, p(ei)表示优先级, δi代表经验片段ei的TD‑error, α ∈[0,1], α 控制TD ‑error的影
响程度, 当时退化为简单随机采样; ε是一个很小的正数, 用于避免出现经验片段零优先级
的情况, 保证所有的经验片段都可能被采样。
4.根据权利要求3所述基于神经网络虚拟自我对局的多人、 大规模非完全信息博弈方权 利 要 求 书 1/3 页
2
CN 114048833 A
2法, 其特征在于, 采用退火算法修正优 先级经验采样 造成的概率分布偏移, 通过给TD ‑error
增加ISW权重系数,将从原分布PA采样等效转化成重 新分布PB采样,完成了 修正, 修正后最终
的权重如下式:
上式中, 因为p(e)‑β随p(e)的增大单调减小, 所以p(e)‑β的最大值对应p(e)的最小 值, 即
有maxjp(ej)‑β=(minjp(ej))‑β。
5.根据权利要求1所述基于神经网络虚拟自我对局的多人、 大规模非完全信息博弈方
法, 其特征在于, 所述 求和树通过下述方式构造:
初始化树节点的值为零, 当有经验片段保存到记忆库时, 用叶子节点保存经验片段及
其优先级, 然后逐层向上更新其祖先节点保存的优先级数据, 当进行采样的时候, 采样n个
经验样本, 就将优先级总和平均分成n个区间, 然后分别从这n个优先级区间随机选出一个
优先级, 记为p1,p2,…,pn, 然后根据这些优先级到求和树中找到对应的经验样本 。
6.根据权利要求1所述基于神经网络虚拟自我对局的多人、 大规模非完全信息博弈方
法, 其特征在于, 所述采用优先级加权的学习程度控制机制进 行经验片段学习程度的优化,
具体为:
采用优先级作为学习次数的权重系数, 定义一 次训练中经验片段ei的学习次数LT如下
式所示:
LT(ei)=clip[p(ei)Nltmax,Nltmin,Nltmax]
其中Nltmin,Nltmax分别是经验片段学习次数的上下限, clip将取整后的学习次数钳位在
[Nltmin,Nltmax]范围内。
7.根据权利要求1所述基于神经网络虚拟自我对局的多人、 大规模非完全信息博弈方
法, 其特征在于, 所述使用马尔科 夫决策过程对拓展式博 弈进行重新建模, 具体为:
为了实现对多人博弈的正确建模, 对于每个智能体而言, 除本身之外的N ‑1个对手智能
体共同确定了一个MDP, 以单个博弈智能体的视角来看, 就是单纯地与环境进行交互, 在交
互过程中不断产生经验片段, 再通过对 经验片段的学习得到此MDP的近似解, 也就是对抗N ‑
1个对手智能体的最优反应。
8.根据权利要求1所述基于神经网络虚拟自我对局的多人、 大规模非完全信息博弈方
法, 其特征在于, 所述博弈环境包括训练环境和评估环境, 所述训练环境用于多个智能体进
行博弈来提升博弈水平, 所述评估环境用于将训练后的智能体与其他智能体进行对弈来评
估练后的智能体的博 弈水平。
9.一种电子设备, 其特 征在于, 所述电子设备包括:
至少一个处 理器; 以及,权 利 要 求 书 2/3 页
3
CN 114048833 A
3
专利 基于神经网络虚拟自我对局的多人、大规模非完全信息博弈方法及装置
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:02:15上传分享