专利 一种强化学习感知的冰壶模拟图像转换真实图像的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210229371.1 (22)申请日 2022.03.09 (71)申请人中国石油大学（华东）地址 266580 山东省青岛市黄岛区长江西路66号 (72)发明人李宗民　孙文洁　肖倩　孙浩淼　李亚传　王向东　 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 3/00(2006.01) G06V 40/20(2022.01) G06V 10/44(2022.01) G06V 10/82(2022.01) G06F 111/04(2020.01) (54)发明名称一种强化学习感知的冰壶模拟图像转换真实图像的方法 (57)摘要本发明公开了一种强化学习感知的冰壶模拟比赛图像到真实图像转换的方法，属于深度学习领域的人工智能和计算机视觉方向，建立了强化学习感知的任务可知冰壶模拟图像转换模型，主要解决模拟环境中训练的冰壶策略可能与现实不匹配的问题。算法主要包括：图像风格转化模块、强化学习约束模块：为模拟图像提供像素级领域自适应,并通过强化学习约束使图像在转换过程中保留强化学习所需的重要属性，实现转化过程的任务可知。这种强化学习感知的冰壶模拟比赛图像到真实图像转换的方法，有效提升了现有的冰壶辅助决策模型的效果，实现成本低，应用范围广。权利要求书1页说明书3页附图2页 CN 114707402 A 2022.07.05 CN 114707402 A 1.强化学习感知的冰壶模拟图像转换真实图像方法，所述方法包括：步骤1)，收集模拟器中冰壶比赛图像与真实冰壶比赛图像，分别构成两个训练集；步骤2)，将两个训练集送入基于CycleGAN网络的图像风格转化模块，实现模拟图像到真实图像转化的基本流程；步骤3)，初始化两个Q网络： Qsim与Qreal。通过原始模拟图像和模拟动作训练Qsim网络，通过生成真实图像和模拟动作训练Qreal网络，通过TD loss更新Q网络参数；步骤4)，使用强化学习场景一致性约束CycleGAN模型，要求描述相同场景的图像对应相同的Q值；步骤5)，训练完成后输入任意模拟器产生的冰壶比赛模拟图像由生成器产生对应的真实图像，将真实图像作为冰壶策略训练的输入取代原有的模拟图像。 2.根据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法，其特征在于：步骤1)两组数据不需要配对。 3.根据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法，其特征在于：步骤2)C ycleGAN由两组镜像GAN网络组成(定义两个生成器与两个判别器)，增加了循环一致性损失鼓励重建图像保留输入图像的某些属性。 4.根据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法，其特征在于：步骤3)对原始Q‑learning方法进行改进，使其适用于连续动作空间。 5.据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法，其特征在于：步骤4)CycleGAN网络、 Qsim和Qreal网络在实际训练过程中采取联合训练方式。 6.据权利要求1所述的强化学习感知的冰壶模拟图像转换真实图像方法，其特征在于：步骤5)可以直接使用联合训练得到的Qreal网络中的策略应用到现实比赛，但在训练完成后冻结Q网络重新使用CycleGA N网络进行图像风格转化后再将得到的真实图像用以强化学习的训练可以得到更好的效果。权　利　要　求　书 1/1 页 2 CN 114707402 A 2一种强化学习感知的冰壶模拟图像转换真实图像的方法技术领域 [0001]本发明属于深度学习领域，是图像处理领域中的一项重要应用，尤其是涉及一种强化学习感知的模拟冰壶图像到真实冰壶比赛图像的转换。技术背景 [0002]冰壶运动越来越受到大家的关注与欢迎。作为一项技巧和谋略相结合的比赛项目，借助计算机的力量来规划冰壶比赛策略显得尤为重要。 [0003]策略因素是影响冰壶比赛成绩的一个重要因素，借助强化学习手段训练的辅助与决策方法与传统方法相比带来了精度与速度的提升，然而由于冰壶比赛场地中相机位置等的限制要收集到不需要加工处理就适用于强化学习训练素材是存在一定难度的，现有策略往往将现实中收集到的素材进行数字化提取然后映射到模拟环境中，并将模拟图片作为输入进行策略学习，然而这种模拟环境中的训练是次优的，由于现场光照、纹理、颜色等，使得模拟图像与现实图像存在很大差距，因此训练出的策略不完全适用于现实的冰壶比赛。 [0004]而冰壶是对精确度要求极高的运动，微小的偏差就可能很大程度影响最终结果，我们提出了一种在强化学习基础上自动将模拟器生成的冰壶比赛图像转化为现实冰壶比赛图像，以进一步提升策略精确度的方法。 [0005]传统的图像转化方法在转化图像风格的过程中是任务不可知的，因此可能导致强化学习所必须的关键信息被忽略，这会对强化学习的结果造成严重负面影响，因此我们在图像转换过程中加入强化学习感知，使转化得到的模拟图像强制保留强化学习所需的关键信息，提升了最终转换图像的质量。 [0006]我们提出的强化学习感知的模拟图像转化模型通过不成对数据集训练将冰壶比赛模拟图像转化为真实感的图像并用其进行强化学习训练，可进一步提升原来基于模拟图像训练的现有的冰壶辅助决策方法的精度，消除模拟和现实之间的差距，使得产生的策略更好的应用于现实冰壶比赛。发明内容 [0007]本发明提出了一种基于强化学习感知的冰壶模拟场景转化为真实场景的方法。该方法以生成式对抗网络为基础，结合了强化学习技术，无需大量成对数据集。在最大程度上保留强化学习所需关键信息的基础上，自动将模拟冰壶图像转化高质量的真实比赛图像，用转化后的真实图像进行训练，可以有效提升现有冰壶辅助决策模型的性能。该方法可以适用于任何基于模拟冰壶图像训练的辅助决策模型，为其提供真实图像训练以取代模拟图像。 [0008]其技术解决方案是： [0009]强化学习感知的冰壶模拟图像转换真实图像方法，所述方法包括： [0010]步骤1)，收集模拟器中冰壶比赛图像与真实冰壶比赛图像，分别构成两个训练集； [0011]步骤2)，将两个训练集送入基于CycleGAN网络的图像风格转化模块，实现模拟图说　明　书 1/3 页 3 CN 114707402 A 3

专利 一种强化学习感知的冰壶模拟图像转换真实图像的方法

专利一种强化学习感知的冰壶模拟图像转换真实图像的方法