专利 基于分布式强化学习和边缘计算的工厂调度方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111349982.1 (22)申请日 2021.11.15 (65)同一申请的已公布的文献号申请公布号 CN 114066232 A (43)申请公布日 2022.02.18 (73)专利权人内蒙古北方重工业集团有限公司地址 014000 内蒙古自治区包头市青山区厂前路专利权人暨南大学　内蒙古工业大学 (72)发明人郭洪飞　陈世帆　郭海全　曾云辉　伍泓韬　刘景顺　何智慧　任亚平　张锐　 (74)专利代理机构北京精金石知识产权代理有限公司 1 1470 专利代理师杨兰兰(51)Int.Cl. G06Q 10/06(2012.01) G06Q 10/10(2012.01) G06K 9/62(2022.01) G06N 20/00(2019.01) H04L 67/10(2022.01) (56)对比文件 CN 112685165 A,2021.04.20 CN 111858009 A,2020.10.3 0 CN 113487165 A,2021.10.08 曹万里.基于强化学习的在线协任务调度与分配. 《中国优秀硕士学位论文全文数据库信息科技辑》 .2021,I140 -60. 审查员牛雪珂 (54)发明名称基于分布式强化学习和边缘计算的工厂调度方法及系统 (57)摘要本发明属于工业物联网技术领域，公开了基于分布式强化学习和边缘计算的工厂调度方法及系统。所述系统包括本地动作模型、边缘设备、云端数据存储器和云端策略模型。方法为：初始化本地动作模型和边缘设备；本地动作模型实时生成适配不同流水线的调度规则；边缘设备对实时产生的生产信息进行编码，生成两参数元组和五参数元组分别发送至本地动作模型和云端数据存储器；云端策略模型对云端存储的数据进行优先级采样、重要性排序和更新；同步云端策略模型和本地动作模型。本发明将边缘计算与分布式强化学习算法结合应用于工业生产，实现了数据实时传输和工业生产实时调度，并通过本地设备与云端设备的交互，不断提高模型准确性，优化工业生产效率。权利要求书3页说明书6页附图1页 CN 114066232 B 2022.07.22 CN 114066232 B 1.基于分布式强化学习和边缘计算的工厂调度方法，其特征在于，所述方法包括如下步骤：步骤S1：初始化本地动作模型和边缘设备；步骤S2：本地动作模型根据不同流水线的ID生成初始调度规则，并分配到相应的流水线上；步骤S3：边缘设备对当前环境实时产生的生产信息进行编码，生成能够反映当前时刻生产环境所处状态的特征s，并生成两参数元组(s,ID)和五参数元组(s,a,r,s ’,ID)，其中的参数分别为：反映当前时刻生产环境状态的特征s，本地动作模型在当前时刻所采取的动作a，生产环境在当前时刻反馈给模型的奖励r，反映下一时刻生产环境的特征s ’，流水线的编号ID；步骤S4：所述边缘设备将两参数元组(s,ID)传输至本地动作模型作为输入，本地动作模型采用分布式强化学习算法，生成适配不同流水线的新的调度规则，然后转入步骤S 3；同时，将五参数元组(s,a,r,s ’,ID)发送至部署在云端的云端数据存储器中进行存储；步骤S5：云端策略模型将对云端数据存储器所存储的数据进行优先级采样；步骤S6：对云端数据存储器所存储的特征数据依据其重要性进行排序，以此更新云端数据存储器；步骤S7：在一定的时间间隔t后，对云端策略模型和本地动作模型进行同步，依据云端策略模型更新本地动作模型；所述步骤S4中，本地动作模型采用分布式强化学习算法，生成适配不同流水线的新的调度规则，具体包括：本地动作模型采用分布式强化学习算法，根据不同流水线的ID，在每一个流水线上采用不同的ε，以不同的概率选择随机的动作，为不同的流水线采用 ε ‑greedy 算法生成适配该流水线的新的调度规则；所述分布式强化学习算法具体包括如下步骤： S41：在不同的生产环境中运行智能体，存储智能体与环境交互产生的样本数据； S42：远程同步云端策略模型与本地动作模型的参数； S43：从生产环境中获取初始状态； S44：对于时间t＝1 ‑T，执行以下过程：利用当前策略选择不同的动作；将所选的动作运用于当前生产环境中；利用边缘设备对生产环境状态特征s进行编码，并将数据存储在本地缓存中；每隔一段时间将本地缓存上传到云端数据存储器样本池中，并将本地缓存清空，同时计算各个样本的优先级；利用云端数据对策略模型进行更新，并将云端策略模型同步到本地动作模型。 2.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法，其特征在于，所述步骤S1中，初始化本地动作模型和边缘设备，具体包括：设定本地动作模型的基本参数，预设不同流水线的初始调度规则分配策略，设定边缘设备的基本参数和编码算法。 3.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法，其特征在于，所述步骤S3中，边缘设备对当前环境实时产生的生产信息进行编码，具体包括：在生产过程中，当每一条流水线根据本地动作模型当前分配的调度规则调度工件时，会在各个流权　利　要　求　书 1/3 页 2 CN 114066232 B 2水线上得到相应的调度结果，生产环境根据调度结果将会实时地产生新的生产信息并传输至边缘设备中，由边缘设备对实时产生的生产信息进行编码。 4.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法，其特征在于，所述步骤S5具体包括：部署在云端的云端策略模型将对云端数据存储器所存储的数据进行优先级采样，并将所采样到的数据作为云端策略模型的输入训练云端策略模型，得到更优的云端策略模型参数。 5.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法，其特征在于，在进行步骤S5和步骤S6时，所述云端策略模型中包含如下算法步骤： S61：利用从样本池中采样的batc h更新网络； S62：对于时间t＝1 ‑T，执行以下过程：在后台线程中对已按优先级排列的batc h进行采样；执行更新策略；重新计算并更新云端数据存储器样本池中样本的优先级；移除云端数据存储器样本池中比较早的样本。 6.基于分布式强化学习和边缘计算的工厂调度系统，其特征在于：所述系统包括：本地动作模型：部署在本地，执行当前的调度规则分配策略，具体地，在初始化状态时，根据不同流水线的ID，采用预设的初始调度规则分配策略，生成初始调度规则并分配到相应的流水线上；在生产过程中，根据从边缘设备获取到的生产特征s以及流水线ID所构建的两参数元组(s,ID)作为输入，采用分布式强化学习算法，实时为每个不同的流水线输出适合该流水线所处状态的新的调度规则并分配到相应的流水线上；边缘设备：部署在本地，所述边缘设备进行过预训练，能够实现将生产环境中的实时生产信息进行编码，转化成能够反映当前时刻生产环境所处状态的特征s，并生成两参数元组 (s,ID)和五参数元组(s,a,r,s ’,ID)，其中的参数分别为：反映当前时刻生产环境状态的特征s，本地动作模型在当前时刻所采取的动作a，生产环境在当前时刻反馈给模型的奖励r，反映下一时刻生产环境的特征s ’，流水线的编号ID；然后，所述边缘设备将两参数元组(s, ID)发送至本地动作模型作为本地动作模型的输入，将五参数元组(s,a,r,s ’,ID)发送至部署在云端的云端数据存储器中进行存储；云端数据存储器：部署在云端，作为缓冲器用以存储边缘设备所传输来的五参数元组 (s,a,r,s ’,ID)，以供云端策略模型进行训练和更新；云端策略模型：部署在云端，对云端数据存储器进行优先级采样，并将所采样到的数据作为模型输入，进行云端策略模型的训练，实现对云端策略模型参数的更新及优化，并在一定的时间间隔t后，对云端策略模型和本地动作模型进行同步，依据云端策略模型更新本地动作模型；所述本地动作模型中，采用分布式强化学习算法，实时为每个不同的流水线输出适合该流水线所处状态的新的调度规则并分配到相应的流水线上，具体包括：本地动作模型采用分布式强化学习算法，根据不同流水线的ID，在每一个流水线上采用不同的ε，以不同的概率选择随机的动作，为不同的流水线采用 ε ‑greedy算法生成适配该流水线的新的调度规则；所述分布式强化学习算法具体包括如下步骤：权　利　要　求　书 2/3 页 3 CN 114066232 B 3

专利 基于分布式强化学习和边缘计算的工厂调度方法及系统

专利基于分布式强化学习和边缘计算的工厂调度方法及系统