(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210229371.1
(22)申请日 2022.03.09
(71)申请人 中国石油大 学 (华东)
地址 266580 山东省青岛市黄岛区长江西
路66号
(72)发明人 李宗民 孙文洁 肖倩 孙浩淼
李亚传 王向东
(51)Int.Cl.
G06F 30/27(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06T 3/00(2006.01)
G06V 40/20(2022.01)
G06V 10/44(2022.01)
G06V 10/82(2022.01)
G06F 111/04(2020.01)
(54)发明名称
一种强化学习感知的冰壶模拟图像转换真
实图像的方法
(57)摘要
本发明公开了一种强化学习感知的冰壶模
拟比赛图像到真实图像转换的方法, 属于深度学
习领域的人工智能和计算机视觉方向, 建立了强
化学习感知的任务可知冰壶模拟图像转换模型,
主要解决模拟环境中训练的冰壶策略可能与现
实不匹配的问题。 算法主要包括: 图像风格转化
模块、 强化学习约束模块: 为模拟图像提供像素
级领域自适应,并通过 强化学习约束使图像在转
换过程中保留强化学习所需的重要属性, 实现转
化过程的任务可知。 这种强化学习感知的冰壶模
拟比赛图像到真实图像转换的方法, 有效提升了
现有的冰壶辅助决策模型的效果, 实现成本低,
应用范围广。
权利要求书1页 说明书3页 附图2页
CN 114707402 A
2022.07.05
CN 114707402 A
1.强化学习感知的冰壶模拟图像转换真实图像方法, 所述方法包括:
步骤1), 收集模拟器中冰壶比赛图像与真实冰壶比赛图像, 分别构成两个训练集;
步骤2), 将两个训练集送入基于CycleGAN网络的图像风格转化模块, 实现模拟图像到
真实图像转 化的基本流 程;
步骤3), 初始化两个Q网络: Qsim与Qreal。 通过原始模拟图像和模拟动作训练Qsim网
络, 通过生成真实图像和模拟动作训练Qreal网络, 通过TD loss更新Q网络参数;
步骤4), 使用强化学习场景一致性约束CycleGAN模型, 要求描述相同场景的图像对应
相同的Q值;
步骤5), 训练完成后输入任意模拟器产生的冰壶比赛模拟图像由生成器产生对应的真
实图像, 将真实图像作为冰壶策略训练的输入取代 原有的模拟图像。
2.根据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法, 其特征在
于: 步骤1)两组数据不需要配对。
3.根据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法, 其特征在
于: 步骤2)C ycleGAN由两组镜像GAN网络组成(定义两个生 成器与两个判别器), 增加了循环
一致性损失鼓励重建图像保留输入图像的某些属性。
4.根据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法, 其特征在
于: 步骤3)对原 始Q‑learning方法进行改进, 使其 适用于连续动作空间。
5.据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法, 其特征在于:
步骤4)CycleGAN网络、 Qsim和Qreal网络在实际训练过程中采取 联合训练方式。
6.据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法, 其特征在于:
步骤5)可以直接使用联合训练得到的Qreal网络中的策 略应用到现实比赛, 但在训练完成
后冻结Q网络重新使用CycleGA N网络进行图像风格转化后再将得到的真实图像用以强化学
习的训练可以得到更好的效果。权 利 要 求 书 1/1 页
2
CN 114707402 A
2一种强化学习感知的冰壶 模拟图像转换真实图像的方 法
技术领域
[0001]本发明属于深度学习领域, 是 图像处理领域中的一项重要应用, 尤其是涉及一种
强化学习感知的模拟冰壶图像到真实冰壶比赛图像的转换。
技术背景
[0002]冰壶运动越来越受到大家的关注与欢迎。 作为一项技巧和谋略相结合的比赛项
目, 借助计算机的力量 来规划冰壶比赛策略显得 尤为重要。
[0003]策略因素是影响冰壶比赛成绩的一个重要因素, 借助强化学习手段训练的辅助与
决策方法与传统方法相比带来了精度与速度的提升, 然而由于冰壶比赛场地中相机位置等
的限制要收集到不需要加工处理就适用于强化学习训练素材是存在一定难度的, 现有 策略
往往将现实中收集到的素材进 行数字化提取然后映射到模拟环境中, 并将模拟图片作为输
入进行策略学习, 然而这种模拟环 境中的训练是次优的, 由于现场光照、 纹理、 颜色等, 使得
模拟图像与现实图像存在很大差距, 因此训练出的策略不完全适用于现实的冰壶比赛。
[0004]而冰壶是对精确度要求极高的运动, 微小的偏差就可能很大程度影响最终结果,
我们提出了一种在强化学习基础上自动将模拟器生成的冰壶比赛图像转化为现实冰壶比
赛图像, 以进一 步提升策略精确度的方法。
[0005]传统的图像转化方法在转化图像风格的过程中是任务不可知的, 因此可能导致强
化学习所必须的关键信息被忽略, 这会对强化学习的结果造成严重负面影响, 因此我们在
图像转换过程中加入强化学习感知, 使转化得到的模拟图像强制保留强化学习所需的关键
信息, 提升 了最终转换图像的质量。
[0006]我们提出的强化学习感知的模拟图像转化模型通过不成对数据集训练将冰壶比
赛模拟图像转化为真实感的图像并用其进 行强化学习训练, 可进一步提升原 来基于模拟图
像训练的现有的冰壶辅助决策方法的精度, 消除模拟和现实之间的差距, 使得产生的策略
更好的应用于现实冰壶比赛。
发明内容
[0007]本发明提出了一种基于强化学习感知的冰壶模拟场景转化为真实场景的方法。 该
方法以生成 式对抗网络为基础, 结合了强化学习技术, 无需大量成对 数据集。 在最大程度上
保留强化学习 所需关键信息的基础上, 自动将模拟冰壶图像转化高质量的真实比赛图像,
用转化后的真实 图像进行训练, 可以有效提升现有冰壶辅助决策模型 的性能。 该方法可以
适用于任何基于模拟冰壶图像训练的辅助决策模型, 为其提供真实图像训练以取代模拟图
像。
[0008]其技术解决方案是:
[0009]强化学习感知的冰壶模拟图像转换真实图像方法, 所述方法包括:
[0010]步骤1), 收集模拟器中冰壶比赛图像与真实冰壶比赛图像, 分别构成两个训练集;
[0011]步骤2), 将两个训练集送入基于CycleGAN网络的图像风格转化模块, 实现模拟图说 明 书 1/3 页
3
CN 114707402 A
3
专利 一种强化学习感知的冰壶模拟图像转换真实图像的方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:11:47上传分享