专利 基于强化学习动态多用户无线通信场景下边缘优化方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111323656.3 (22)申请日 2021.11.08 (65)同一申请的已公布的文献号申请公布号 CN 114051205 A (43)申请公布日 2022.02.15 (73)专利权人南京大学地址 210000 江苏省南京市栖霞区仙林大道163号 (72)发明人赵健　刘潇博　陈培昕　李龙敏　 (74)专利代理机构江苏圣典律师事务所 32 237 专利代理师胡建华 (51)Int.Cl. H04W 4/02(2018.01) H04W 24/02(2009.01) H04W 72/04(2009.01)G06N 20/00(2019.01) (56)对比文件 CN 113286317 A,2021.08.20 CN 112422346 A,2021.02.26 CN 107819840 A,2018.0 3.20 CN 111586696 A,2020.08.25 CN 110099384 A,2019.08.0 6 CN 110312231 A,2019.10.08 CN 113572804 A,2021.10.2 9 CN 112911648 A,2021.0 6.04 梁裕丞等.V ANET云环境下基于人工神经网络的车辆任务卸载策略. 《重庆邮电大学学报(自然科学版)》 .2020,(第0 3期), 审查员李骁 (54)发明名称基于强化学习动态多用户无线通信场景下边缘优化方法 (57)摘要本发明公开了基于强化学习动态多用户无线通信场景下边缘优化方法，包括以下步骤：步骤1：以最大化单位时隙内系统处理数据量为优化目标，建立目标优化问题。对原问题进行数学分析，采用组合优化的方式。步骤2：通过强化学习以及解凸优化问题的方式，对目标优化问题进行求解，先获得各个用户的卸载决策，然后基于该策略求解出单位时隙中无线能量传输时间占比变量和各个用户无线传输时间占比变量。步骤 3：不同时隙用户位置有所变动，需要通过多轮迭代训练神经网络参数，直至达到收敛。权利要求书3页说明书9页附图4页 CN 114051205 B 2022.09.13 CN 114051205 B 1.基于强化学习动态多用户无线通信场景下边缘优化方法，其特征在于，包括以下步骤：步骤1：建立一个动态的多用户时分系统,以最大化单位时隙内系统处理数据量为优化目标的优化系统；步骤2：获得各个用户的卸载决策，基于该卸载决策计算单位时隙中无线功率传输时间占比变量和各个用户无线卸载时间占比变量；步骤3：针对不同时隙用户位置的变动，通过多轮迭代训练神经网络参数，直至达到收敛从而实现边缘优化。 2.根据权利要求1所述的方法，其特征在于，多用户时分系统包括一个具有单个无线接入点和N个单天线用户设备的无线功率传输的边缘计算卸载系统，一个区域内的基站包含两个组成部分：射频能量发射器和边缘计算服务器。 3.根据权利要求2所述的方法，其特征在于，边缘计算卸载系统使用无线功率传输技术为任务处理和上传卸载的无线通信过程提供能量支持；基于时分多路复用的工作模式，对每个时隙的无线功率传输时间占比以及各个用户的卸载时间占比的优化使用深度强化学习和解凸优化的方式进行。 4.根据权利要求1所述的方法，其特征在于：优化目标优化系统方法为：其中maximize表示优化目标为最大化， subject to后续表达式表示约束条件， wi和wj分别表示用户本地计算速率和无线通信速率的权重， P表示由接入点AP发射的无线功率， μ∈ (0， 1)表示每个用户获取能量的系数，和分别表示用户本地计算和卸载上传两种模式，满足关系为 a表示传输无线功率的时间在每个单位时隙中的占比， τi表示选择将任务卸载上传的用户无线卸载时间在每个单位时隙中的占比， fi表示本地计算时处理器的计算频率， Γi表示处理器的计算功耗系数， φ表示本地计算时处理每比特数据时所需要的处理器周期数，式中所有出现的下标i和j分别表示第i和第j个用户设备， fmax表示本地计算时处理器的最大频率；符号 →表示为向量； T为单位时隙， ti表示第i个用户本地计算的时间， B表示通信带宽， Pi是第i个用户设备卸载其任务时的传输功率， hi表示第i个用户设备与AP发射间的信道增益； Pj表示第j个用户设备卸载其任务时的传输功率， hj表示第j个用户设备与AP发射间的信道增益。权　利　要　求　书 1/3 页 2 CN 114051205 B 25.根据权利要求3所述的方法，其特征在于，所述使用无线功率传输技术为整个系统的任务处理和上传卸载的无线通信过程提供能量支持，包括：在每个时隙开始时，由接入点AP设备向系统内的IoT设备发送无线功率，每个设备通过能量获取模块获取能量并存储在电池模块中，在设备进行卸载决策之后，该能量用于任务的本地计算或者卸载上传。 6.根据权利要求3所述方法，其特征在于，所述基于时分多路复用的工作模式，对每个时隙的无线功率传输时间占比以及各个用户的卸载时间占比的优化使用深度强化学习和解凸优化的方式进行，包括：设置状态空间、动作空间和反馈价值以及训练策略，得到满足优化目标问题约束的数值映射关系。 7.根据权利要求6所述的方法，其特征在于，所述设置状态空间、动作空间和反馈价值以及训练策略包括：预先初始化构建神经网络，并根据历史信息生成经验回放库、经验回放库中顺序存储数据集对所述神经网络进行训练，以最大程度地提高预期的折扣奖赏，实现动态未知网络环境下自适应的行为选择。 8.根据权利要求7所述方法，其特征在于，在每个时隙开始时，先由接入点AP进行无线功率的传输，该过程的时间占比为a，然后各个需要上传卸载的UE通过串行的方式进行无线传输，时间占比为 τi。 9.根据权利要求4所述的方法，其特征在于，对于第i个UE任务的总位数Di，在卸载模式下的传输速率为：其中Pi是第i个UE卸载其任务时的传输功率，满足关系式PiτiT≤Etotal， i， Etotal， i表示第i 个用户设备获取的总能量，其中B表示通信带宽， N0表示接收机噪声功率，在本地计算模式下，计算速率受到处理器最大频率和能量消耗的限制，本地计算速率与计算时间成正比，因此ti*＝T，令所有收集的能量都用于本地计算，得到：因为存在频率约束始终成立，得到在本地计算模式下的最优解为： φ表示本地计算时处理每比特数据时所需要的处理器周期数。 10.根据权利要求9所述的方法，其特征在于，对于无线场景，只考虑单位时间内上传的任务大小即无线传输速率；无线传输的速率也受到获取的能量大小限制，为了最大化上传权　利　要　求　书 2/3 页 3 CN 114051205 B 3

专利 基于强化学习动态多用户无线通信场景下边缘优化方法

专利基于强化学习动态多用户无线通信场景下边缘优化方法