说明:收录25万 73个行业的国家标准 支持批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111274486.4 (22)申请日 2021.10.2 9 (71)申请人 深圳市商汤科技有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (72)发明人 牛雅哲 刘宇 王晓刚  (74)专利代理 机构 北京中知恒瑞知识产权代理 事务所(普通 合伙) 11889 代理人 袁忠林 (51)Int.Cl. G06N 20/00(2019.01) A63F 13/56(2014.01) (54)发明名称 智能体的强化学习方法、 装置、 计算机设备 及存储介质 (57)摘要 本公开提供了一种智能体的强化学习方法、 装置、 计算机设备及存储介质, 其中, 该方法包 括: 获取目标任务的任务需求; 基于所述目标任 务的任务需求, 确定用于执行所述目标任务的智 能体分别对应的状态空间和动作空间; 基于所述 状态空间、 动作空间以及预先搭建的智能体强化 学习框架中的基线算法对所述智能体进行中心 化训练, 确定所述智能体对应的值网络; 基于所 述智能体对应的值网络, 对所述智能体对应的策 略网络进行训练, 以基于训练好的策略网络控制 所述智能体执 行所述目标任务。 权利要求书2页 说明书15页 附图4页 CN 114004365 A 2022.02.01 CN 114004365 A 1.一种智能体的强化学习方法, 其特 征在于, 包括: 获取目标任务的任务需求; 基于所述目标任务的任务需求, 确定用于执行所述目标任务的智能体分别对应的状态 空间和动作空间; 基于所述状态 空间、 动作空间以及预先搭建的智能体强化学习框架中的基线算法对所 述智能体进行中心化训练, 确定所述智能体对应的值网络; 基于所述智能体对应的值网络, 对所述智能体对应的策略网络进行训练, 以基于训练 好的策略网络控制所述智能体执 行所述目标任务。 2.根据权利要求1所述的方法, 其特征在于, 所述状态 空间的状态类型包括全局观测信 息、 局部观测信息以及混合观测信息的一种或多种; 所述动作 空间的动作类型包括离散动 作、 连续动作以及混合动作一种或多种。 3.根据权利要求1或2所述的方法, 其特征在于, 所述智能体强化学习框架中包括预先 封装的至少一个功能模块; 所述基于所述智能体对应的值网络, 对所述智能体对应的策略网络进行训练, 包括: 基于所述目标任务的任务需求, 确定用于执 行所述目标任务的目标功能模块; 基于所述智能体对应的值网络和所述目标功能模块, 对所述智能体对应的策略网络进 行训练。 4.根据权利要求3所述的方法, 其特征在于, 所述目标功能模块包括第 一目标功能模块 和第二目标功能模块: 所述第二目标功能模块为智能体动作掩蔽模块, 用于掩蔽所述策略网络输出的目标类 型的动作, 以使所述目标类型的动作不被智能体执 行; 所述第一目标功能模块为归一化模块, 用于对所述值网络对应的值函数进行归一化处 理。 5.根据权利要求3或4所述的方法, 其特征在于, 所述基于所述智能体对应的值网络和 所述目标功能模块, 对所述智能体对应的策略网络进行训练, 包括: 基于第一目标功能模块对所述智能体对应的值网络进行优化处理, 并基于优化处理后 的所述值网络对所述智能体对应的策略网络进行训练。 6.根据权利要求3~5任一所述的方法, 其特征在于, 所述基于所述智能体对应的值网 络和所述目标功能模块, 对所述智能体对应的策略网络进行训练, 包括: 针对任一智能体, 基于第二目标功能模块对该智能体的策略网络进行优化处 理; 基于优化处理后的策略网络, 确定该智能体对应的值网络的输出值, 并基于所述值网 络的输出值确定该智能体对应的策略网络对应的损失值; 基于所述损失值对该智能体对应的策略网络进行训练。 7.根据权利要求1~6任一所述的方法, 其特征在于, 所述策略网络的输入为对应的智 能体的局部观测信息, 输出为对应的智能体执行动作空间中各动作的概率值; 所述值网络 的输入为各智能体的全局观测信息, 输出为智能体各个动作或状态的评估值。 8.根据权利要求1~7任一所述的方法, 其特征在于, 所述智能体强化学习框架中包括 预先封装的至少一个优化模块; 所述基于所述智能体对应的值网络, 对所述智能体对应的策略网络进行训练, 包括:权 利 要 求 书 1/2 页 2 CN 114004365 A 2基于优化指令, 确定用于优化所述 值网络的第一目标优化模块; 基于所述第 一目标优化模块对所述智能体对应的值网络进行优化处理, 并基于优化处 理后的所述 值网络, 对所述智能体对应的策略网络进行训练。 9.根据权利要求1~8任一所述的方法, 其特征在于, 所述智能体强化学习框架中包括 预先封装的至少一个优化模块; 在对所述智能体对应的策略网络进行训练之后, 所述方法还 包括: 基于所述目标任务, 对训练好的所述智能体进行测试; 基于所述目标任务的测试 结果, 确定用于优化所述 值网络的第二目标优化模块; 基于所述第二目标优化模块, 对所述 值网络进行优化处 理; 基于优化处 理后的所述 值网络, 对所述智能体对应的策略网络进行优化训练。 10.根据权利要求8 或9所述的方法, 其特征在于, 所述优化模块包括智能体状态掩蔽模 块, 所述智能体状态掩蔽模块用于将与需要进 行智能体掩蔽操作的目标智能体对应的状态 参数设置为目标参数, 以表征所述目标智能体不参与所述值网络的训练过程, 其中, 所述状 态参数用于通过值网络进行状态评估。 11.根据权利要求8 或9所述的方法, 其特征在于, 所述优化模块包括联合值函数分解模 块, 所述联合值函数分解模块用于针对各智能体分别建立局部值网络, 并基于各局部值网 络和预设的联合策略, 构建联合之后的混合网络, 以基于所述混合网络的输出对所述策略 网络进行训练。 12.根据权利要求1~11任一所述的方法, 其特征在于, 所述方法还包括根据以下方法 优化所述策略网络: 针对所述策略网络的输出值进行截断操作, 以得到所述输出值中符合预设数值范围要 求的目标输出值; 基于激活函数对所述目标输出值进行激活处理, 以根据激活处理后的目标输出值指示 智能体执 行目标任务。 13.一种智能体的强化学习装置, 其特 征在于, 包括: 获取模块, 用于获取目标任务的任务需求; 第一确定模块, 用于基于所述目标任务的任务需求, 确定用于执行所述目标任务的智 能体分别对应的状态空间、 动作空间; 第二确定模块, 用于基于所述状态空间、 动作空间以及预先搭建的智能体强化学习框 架中的基线算法对所述智能体进行中心化训练, 确定所述智能体对应的值网络; 训练模块, 用于基于所述智能体对应的值网络, 对所述智能体对应的策略网络进行训 练, 以基于训练好的策略网络控制所述智能体执 行所述目标任务。 14.一种计算机设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所 述处理器可执行 的机器可读指令, 当计算机设备运行时, 所述处理器与所述存储器之间通 过总线通信, 所述机器可读指令被所述处理器执行时执行如权利要求1至12任一所述的智 能体的强化学习方法的步骤。 15.一种计算机可读存储介质, 其特征在于, 该计算机可读存储介质上存储有计算机程 序, 该计算机程序被处理器运行时执行如权利要求1至12任一所述的智能体的强化学习 方 法的步骤。权 利 要 求 书 2/2 页 3 CN 114004365 A 3

.PDF文档 专利 智能体的强化学习方法、装置、计算机设备及存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 智能体的强化学习方法、装置、计算机设备及存储介质 第 1 页 专利 智能体的强化学习方法、装置、计算机设备及存储介质 第 2 页 专利 智能体的强化学习方法、装置、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:02:50上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。