(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111323656.3
(22)申请日 2021.11.08
(65)同一申请的已公布的文献号
申请公布号 CN 114051205 A
(43)申请公布日 2022.02.15
(73)专利权人 南京大学
地址 210000 江苏省南京市栖霞区仙林大
道163号
(72)发明人 赵健 刘潇博 陈培昕 李龙敏
(74)专利代理 机构 江苏圣典律师事务所 32 237
专利代理师 胡建华
(51)Int.Cl.
H04W 4/02(2018.01)
H04W 24/02(2009.01)
H04W 72/04(2009.01)G06N 20/00(2019.01)
(56)对比文件
CN 113286317 A,2021.08.20
CN 112422346 A,2021.02.26
CN 107819840 A,2018.0 3.20
CN 111586696 A,2020.08.25
CN 110099384 A,2019.08.0 6
CN 110312231 A,2019.10.08
CN 113572804 A,2021.10.2 9
CN 112911648 A,2021.0 6.04
梁裕丞等.V ANET云环境下基 于人工神经网
络的车辆任务卸载策略. 《重庆邮电大 学学报(自
然科学版)》 .2020,(第0 3期),
审查员 李骁
(54)发明名称
基于强化学习动态多用户无线通信场景下
边缘优化方法
(57)摘要
本发明公开了基于强化学习动态多用户无
线通信场景下边缘优化方法, 包括以下步骤: 步
骤1: 以最大化单位时隙内系统处理数据量为优
化目标, 建立目标优化问题。 对原问题进行数学
分析, 采用组合优化的方式。 步骤2: 通过强化学
习以及解凸优化问题的方式, 对目标优化问题进
行求解, 先获得各个用户的卸载决策, 然后基于
该策略求解出单位时隙中无线能量传输时间占
比变量和各个用户无线传输时间占比变量。 步骤
3: 不同时隙用户位置有所变动, 需要通过多轮迭
代训练神经网络参数, 直至 达到收敛。
权利要求书3页 说明书9页 附图4页
CN 114051205 B
2022.09.13
CN 114051205 B
1.基于强化学习动态多用户无线通信场景下边缘优化方法, 其特征在于, 包括以下步
骤:
步骤1: 建立一个动态的多用户时分系统,以最大化单位时隙内系统处理数据量为优化
目标的优化系统;
步骤2: 获得各个用户的卸载决策, 基于该卸载决策计算单位时隙中无线功率传输时间
占比变量和各个用户无线卸载时间占比变量;
步骤3: 针对不同时隙用户位置的变动, 通过多轮迭代训练神经网络参数, 直至达到收
敛从而实现边 缘优化。
2.根据权利要求1所述的方法, 其特征在于, 多用户时分系统包括一个具有单个无线接
入点和N个单天线用户设备 的无线功率传输的边缘计算卸载系统, 一个区域内的基站包含
两个组成部分: 射频能量发射器和边 缘计算服务器。
3.根据权利要求2所述的方法, 其特征在于, 边缘计算卸载系统使用无线功率传输技术
为任务处 理和上传卸载的无线通信过程 提供能量支持;
基于时分多路复用的工作模式, 对每个时隙的无线功率传输时间占比以及各个用户的
卸载时间占比的优化使用深度强化学习和解凸优化的方式进行。
4.根据权利要求1所述的方法, 其特 征在于: 优化目标优化系统方法为:
其中maximize表示优化目标为最大化, subject to后续表达式表示约束条件, wi和wj分
别表示用户本地计算速率和无线通信速率的权重, P表示由接入点AP发射的无线功率, μ∈
(0, 1)表示每个用户获取能量 的系数,
和
分别表示用户本地计算和卸载上传两种模
式, 满足关系为
a表示传输无线功率的时间在每个单位 时隙中
的占比, τi表示选择将任务卸载上传的用户无线卸载时间在每个单位时隙中的占比, fi表示
本地计算时处理器的计算频率, Γi表示处理器的计算功耗系数, φ表示本地计算时处理每
比特数据时所需要的处理器周期数, 式中所有 出现的下标i和j分别表示第i和 第j个用户设
备, fmax表示本地计算时处理器的最大频率; 符号 →表示为向量; T为单位时隙, ti表示第i个
用户本地计算的时间, B表示通信带宽, Pi是第i个用户设备卸载其任务时的传输功率, hi表
示第i个用户设备与AP发射间的信道增益; Pj表示第j个用户设备卸载其任务时的传输功
率, hj表示第j个用户设备与AP发射间的信道增益。权 利 要 求 书 1/3 页
2
CN 114051205 B
25.根据权利要求3所述的方法, 其特征在于, 所述使用无线功率传输技术为整个系统的
任务处理和上传卸载的无线通信过程 提供能量支持, 包括:
在每个时隙开始时, 由接入点AP设备向系统内的IoT设备发送无线功率, 每个设备通过
能量获取模块获取能量并存储在电池模块中, 在设备进行卸 载决策之后, 该能量用于任务
的本地计算或者卸载 上传。
6.根据权利要求3所述方法, 其特征在于, 所述基于时分多路复用的工作模式, 对每个
时隙的无线功率传输时间占比以及各个用户的卸载时间占比的优化使用深度强化学习和
解凸优化的方式进行, 包括:
设置状态空间、 动作空间和反馈价值以及训练策略, 得到满足优化目标问题约束的数
值映射关系。
7.根据权利要求6所述的方法, 其特征在于, 所述设置状态空间、 动作空间和反馈价值
以及训练策略包括:
预先初始化构建神经网络, 并根据历史信息生成经验回放库、 经验回放库中顺序存储
数据集对所述神经网络进行训练, 以最大程度地提高预期的折扣奖赏, 实现动态未知网络
环境下自适应的行为选择。
8.根据权利要求7所述方法, 其特征在于, 在每个时隙开始时, 先由接入点AP进行无线
功率的传输, 该过程的时间占比为a, 然后各个需要 上传卸载的UE通过串 行的方式进 行无线
传输, 时间占比为 τi。
9.根据权利要求4所述的方法, 其特征在于, 对于第i个UE任务的总位数Di, 在卸载模式
下的传输 速率为:
其中Pi是第i个UE卸载其任务时的传输功 率, 满足关系式PiτiT≤Etotal, i, Etotal, i表示第i
个用户设备获取的总能量, 其中B表示通信带宽, N0表示接收机噪声功率, 在本地计算模式
下, 计算速率受到处理器最大频率和能量消耗的 限制, 本地计算速率与计算时间成正比, 因
此ti*=T, 令所有收集的能量都用于 本地计算, 得到:
因为存在频率约束
始终成立,
得到
在本地计算模式下的最优解 为:
φ表示本地计算时处 理每比特 数据时所需要的处 理器周期数。
10.根据权利要求9所述的方法, 其特征在于, 对于无线场景, 只 考虑单位 时间内上传的
任务大小即无线传输速率; 无线传输的速率也受到获取 的能量大小限制, 为了最大化上传权 利 要 求 书 2/3 页
3
CN 114051205 B
3
专利 基于强化学习动态多用户无线通信场景下边缘优化方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:01:54上传分享