(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111349982.1
(22)申请日 2021.11.15
(65)同一申请的已公布的文献号
申请公布号 CN 114066232 A
(43)申请公布日 2022.02.18
(73)专利权人 内蒙古北方重工业集团有限公司
地址 014000 内蒙古自治区包头市青山区
厂前路
专利权人 暨南大学 内蒙古工业大 学
(72)发明人 郭洪飞 陈世帆 郭海全 曾云辉
伍泓韬 刘景顺 何智慧 任亚平
张锐
(74)专利代理 机构 北京精金石知识产权代理有
限公司 1 1470
专利代理师 杨兰兰(51)Int.Cl.
G06Q 10/06(2012.01)
G06Q 10/10(2012.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
H04L 67/10(2022.01)
(56)对比文件
CN 112685165 A,2021.04.20
CN 111858009 A,2020.10.3 0
CN 113487165 A,2021.10.08
曹万里.基于强化学习的在线协任务调度与
分配. 《中国优秀硕士学位 论文全文数据库 信息
科技辑》 .2021,I140 -60.
审查员 牛雪珂
(54)发明名称
基于分布式强化学习和边缘计算的工厂调
度方法及系统
(57)摘要
本发明属于工业物联网技术领域, 公开了基
于分布式强化学习和边缘计算的工厂调度方法
及系统。 所述系统包括本地动作模型、 边缘 设备、
云端数据存储器和云端策略模型。 方法为: 初始
化本地动作模 型和边缘设备; 本地动作模型实时
生成适配不同流水线的调度规则; 边缘设备对实
时产生的生产信息进行编码, 生成两参数元组和
五参数元组分别发送至本地动作模型和云端数
据存储器; 云端策略模型对云端存储的数据进行
优先级采样、 重要性排序和更新; 同步云端策略
模型和本地动作模型。 本发明将边缘计算与分布
式强化学习算法结合应用于工业生产, 实现了数
据实时传输和工业生产实时调度, 并通过本地设
备与云端设备的交互, 不断提高模型准确性, 优
化工业生产效率。
权利要求书3页 说明书6页 附图1页
CN 114066232 B
2022.07.22
CN 114066232 B
1.基于分布式强化学习和边缘计算的工厂调度方法, 其特征在于, 所述方法包括如下
步骤:
步骤S1: 初始化本地动作模型和边 缘设备;
步骤S2: 本地动作模型根据不同流水线 的ID生成初始调度规则, 并分配到相应的流水
线上;
步骤S3: 边缘设备对当前环境实时产生的生产信息进行编码, 生成能够反映当前时刻
生产环境所处状态的特征s, 并生成两参数元组(s,ID)和五参数元组(s,a,r,s ’,ID), 其中
的参数分别为: 反映当前时刻生产 环境状态的特征s, 本地动作模型在当前时刻所采取的动
作a, 生产 环境在当前时刻反馈给模 型的奖励r, 反映下一时刻生产 环境的特征s ’, 流水线的
编号ID;
步骤S4: 所述边缘设备将两参数元组(s,ID)传输至本地动作模型作为输入, 本地动作
模型采用分布式强化学习算法, 生成适配不同流水线的新的调 度规则, 然后转入步骤S 3; 同
时, 将五参数 元组(s,a,r,s ’,ID)发送至 部署在云端的云端数据存 储器中进行存 储;
步骤S5: 云端策略模型将对云端数据存 储器所存 储的数据进行优先级采样;
步骤S6: 对云端数据存储器所存储的特征数据依据其重要性进行排序, 以此更新云端
数据存储器;
步骤S7: 在一定的时间间隔t后, 对云端策略模型和本地动作模型进行同步, 依据云端
策略模型 更新本地动作模型;
所述步骤S4中, 本地动作模型采用分布式强化学习算法, 生成适配不同流水线的新的
调度规则, 具体包括: 本地动作模型采用分布式强化学习算法, 根据不同流水线的ID, 在每
一个流水线上采用不同的ε, 以不同的概率选择随机的动作, 为不同的流水线采用 ε ‑greedy
算法生成适配该流水线的新的调度规则;
所述分布式强化学习算法具体包括如下步骤:
S41: 在不同的生产环境中运行智能体, 存 储智能体与环境交 互产生的样本数据;
S42: 远程同步云端策略模型与本地动作模型的参数;
S43: 从生产环境中获取初始状态;
S44: 对于时间t=1 ‑T, 执行以下过程:
利用当前 策略选择不同的动作;
将所选的动作运用于当前生产环境中;
利用边缘设备对生产环境状态特 征s进行编码, 并将数据存 储在本地缓存中;
每隔一段时间将本地缓存上传到云端数据存储器样本池中, 并将本地缓存清空, 同时
计算各个样本的优先级;
利用云端数据对策略模型进行 更新, 并将云端策略模型同步到 本地动作模型。
2.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法, 其特征在
于, 所述步骤S1中, 初始化本地动作模型和边缘设备, 具体包括: 设定本地动作模型的基本
参数, 预设不同流水线的初始调度规则分配策略, 设定边 缘设备的基本参数和编码算法。
3.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法, 其特征在
于, 所述步骤S3中, 边缘设备对当前环境实时产生的生产信息进行编码, 具体包括: 在生产
过程中, 当每一条流水线根据本地动作模型当前分配的调度规则调度工件时, 会在各个流权 利 要 求 书 1/3 页
2
CN 114066232 B
2水线上得到相应的调度结果, 生产环境根据调 度结果将会实时地产生新的生产信息并传输
至边缘设备中, 由边 缘设备对实时产生的生产信息进行编码。
4.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法, 其特征在
于, 所述步骤S5具体包括: 部署在云端的云端策略模型将对云端数据存储器所存储的数据
进行优先级采样, 并将所采样到的数据作为云端策略模型 的输入训练云端策略模型, 得到
更优的云端策略模型参数。
5.根据权利要求1所述的基于分布式强化学习和边缘计算的工厂调度方法, 其特征在
于, 在进行步骤S5和步骤S6时, 所述云端策略模型中包 含如下算法步骤:
S61: 利用从样本池中采样的batc h更新网络;
S62: 对于时间t=1 ‑T, 执行以下过程:
在后台线程中对已按优先级排列的batc h进行采样;
执行更新策略;
重新计算并更新云端数据存 储器样本池中样本的优先级;
移除云端数据存 储器样本池中比较早的样本 。
6.基于分布式强化学习和边 缘计算的工厂调度系统, 其特 征在于: 所述系统包括:
本地动作模型: 部署在本地, 执行当前的调度规则分配策略, 具体地, 在初始化状态时,
根据不同流水线的ID, 采用预设的初始调度规则分配策略, 生成初始调度规则并分配到相
应的流水线 上; 在生产过程中, 根据从边缘设备获取到的生产特征s以及流水线ID所构建的
两参数元组(s,ID)作为输入, 采用分布式强化学习算法, 实时为每个不同的流水线输出适
合该流水线所处状态的新的调度规则并分配到相应的流水线上;
边缘设备: 部署在本地, 所述边缘设备进行过预训练, 能够实现将生产环境中的实时生
产信息进 行编码, 转化成能够反映当前时刻生产 环境所处状态的特征s, 并生成两参数元 组
(s,ID)和五参数元组(s,a,r,s ’,ID), 其中的参数分别为: 反映当前时刻生产环境状态的特
征s, 本地动作模型在当前时刻所采取的动作a, 生产环境在当前时刻反馈给模型的奖励r,
反映下一时刻生产环境的特征s ’, 流水线的编号ID; 然后, 所述边缘设备将两参数元组(s,
ID)发送至本地动作模 型作为本地动作模 型的输入, 将五参数元 组(s,a,r,s ’,ID)发送至部
署在云端的云端数据存 储器中进行存 储;
云端数据存储器: 部署在云端, 作为缓冲器用以存储边缘设备所传输来的五参数元组
(s,a,r,s ’,ID), 以供云端策略模型进行训练和更新;
云端策略模型: 部署在云端, 对云端数据存储器进行优先级采样, 并将所采样到的数据
作为模型输入, 进 行云端策略模型的训练, 实现对云端 策略模型参数的更新及优化, 并在一
定的时间间隔t后, 对云端 策略模型和本地动作模 型进行同步, 依据云端 策略模型更新本地
动作模型;
所述本地动作模型中, 采用分布式强化学习算法, 实时为每个不同的流水线输出适合
该流水线所处状态的新的调度规则并分配到相 应的流水线上, 具体包括: 本地动作模型采
用分布式强化学习算法, 根据不同流水线的ID, 在每一个流水线上采用不同的ε, 以不同的
概率选择随机的动作, 为不同的流水线采用 ε ‑greedy算法生 成适配该流水线的新的调度规
则;
所述分布式强化学习算法具体包括如下步骤:权 利 要 求 书 2/3 页
3
CN 114066232 B
3
专利 基于分布式强化学习和边缘计算的工厂调度方法及系统
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:01:40上传分享