专利 一种雾无线接入网中基于多智能体强化学习的协作缓存方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111255936.5 (22)申请日 2021.10.27 (71)申请人东南大学地址 211189 江苏省南京市江宁区东南大学路2号 (72)发明人蒋雁翔　常琦　 (74)专利代理机构南京瑞弘专利商标事务所 (普通合伙) 32249 代理人唐少群 (51)Int.Cl. H04W 28/14(2009.01) H04L 67/568(2022.01) H04L 67/5682(2022.01) G06N 3/00(2006.01) G06N 20/00(2019.01) (54)发明名称一种雾无线接入网中基于多智能体强化学习的协作缓存方法 (57)摘要本发明公开了一种雾无线接入网中基于多智能体强化学习的协作缓存方法，包括：根据缓存节点的区域文件流行度，初始化各节点的缓存状态向量、动作向量、历史缓存记录向量以及深度强化学习参数；根据用户请求文件，每个节点的学习模型做出缓存决策；每个节点根据缓存决策更新其历史缓存记录，并与邻近的节点进行通信；缓存节点根据当前的缓存状态和邻近节点状态，选择传输路径应答用户请求，并且计算用户需求的传输时延；根据传输延迟，缓存节点计算全局的价值函数，对自身学习和邻近节点的学习模型参数进行更新；在遍历所有缓存节点后，一个训练周期结束。本发明加强缓存节点之间的交互，进一步的降低用户需求时延。权利要求书3页说明书7页附图2页 CN 113993168 A 2022.01.28 CN 113993168 A 1.一种雾无线接入网中基于多智能体强化学习的协作缓存方法，其特征在于，所述协作缓存方法包括如下步骤：步骤S1、根据所有缓存节点的区域内容流行度 [P1,P2,...,Pn,...,PN]，初始化缓存节点 n的状态空间历史缓存记录对协作节点m的观测值以及深度强化学习的当前网络参数并设定深度强化学习的目标网络参数得到所有缓存节点的联合状态空间其中， N为雾无线接入网中的缓存节点的总个数，协作节点m为通过后传链路与缓存节点 n建立连接的节点；步骤S2、在第t个时隙，定义缓存节点n的状态空间其中，表示缓存节点n的存储空间中第s个位置存储的文件索引， F表示文件库中文件总数，表示缓存节点n所收集到的用户请求内容， S 表示缓存节点n可缓存的文件最大数量；并且定义缓存节点n的动作空间其中，表示缓存节点n将用收集到的用户请求文件替代存储空间中的第s个文件，表示缓存节点n所收集到的用户请求文件不需要被缓存；步骤S3、缓存节点n收集用户的文件请求，基于本地内容缓存信息，进行缓存动作的选择，做出缓存决策：步骤S4、缓存节点n根据选择的动作，更新缓存节点的历史缓存记录并与邻近的节点建立通信过程，传递缓存节点的历史缓存记录，得到对协作节点的观察值步骤S5、基于步骤S4中缓存节点n做出的缓存决策计算用户的文件传输时延，建立文件传输的优化问题，并转化为多智能体学习模型中的全局价值函数Rt进行求解；步骤S6、利用梯度下降法对缓存节点n和其协作节点m的强化学习模型参数和进行训练，进入下一个缓存节点 n＝n+1，遍历所有缓存节点，一个训练周期结束， t＝t+1。 2.根据权利要求1所述的一种雾无线接入网中基于多智能体强化学习的协作缓存方法，其特征在于，所述步骤S3具体包括：步骤S301、缓存节点n获取其覆盖区域内的所有用户发送的文件请求，再根据获取的文件请求概率得到该区域内的文件流行度，其中，该文件请求为用户根据其自身文件喜好度来决定的，定义为缓存节点n 中的用户u对文件f的文件请求概率，则，缓存节点n根据所有用户的文件请求概率得到该区域内的文件流行度，表达式为：公式中， Un为缓存节点 n 覆盖区域内的用户集合，内容流行度向量为步骤S302、缓存节点n的强化学习模型会根据事先设定的贪婪算法的贪婪因子ε，进行权　利　要　求　书 1/3 页 2 CN 113993168 A 2缓存动作的选取：公式中，是缓存节点n中深度强化学习的当前网络的动作价值函数，为深度强化学习的当前网络的参数；步骤S303、缓存节点n根据选取的动作进行缓存替代操作，得到一个新的状态空间 3.根据权利要求2所述的一种雾无线接入网中基于多智能体强化学习的协作缓存方法，其特征在于，所述步骤S4具体包括：步骤S401、缓存节点n根据所选择的动作计算缓存节点n的历史缓存记录，具体包括：若则表示缓存节点n不会发生文件的替换，即缓存节点n对文件f的历史缓存记录为若则表示缓存节点n将存储空间中的第个文件替换为请求文件f，即缓存节点n对文件f的历史缓存记录为同时被替换的文件进行更新步骤S402、缓存节点n在完成对历史缓存记录的更新后，通过与邻近的节点的通信过程交互，得到对邻近的节点缓存状态信息：公式中， Nn为可与缓存节点 n进行协作的节点集合。 4.根据权利要求3所述的一种雾无线接入网中基于多智能体强化学习的协作缓存方法，其特征在于，所述步骤S5具体包括：步骤S501、判断缓存节点 n以及其邻近的节点是否有缓存文件f，其中，若缓存节点n已经缓存文件f，则缓存节点n直接将内容发送给用户，产生的文件传输延迟为其中，表示将文件f发送给用户所需要的时间；若缓存节点n 没有缓存文件f，但缓存节点n的邻近节点 m∈Nn缓存了文件f，则邻近节点 m 将文件f传输给缓存节点n，再通过缓存节点n发送给用户，产生的文件传输延迟为其中，表示将文件f从节点m发送到节点 n所需要的时间；若缓存节点n和其邻近的节点都没有缓存文件f，则文件f将从云服务器的文件库中发送给节点n，再由节点发送给用户，产生的文件传输时延为其中，表示将文件f从云服务器发送到节点 n所需要的时间；步骤S502、根据缓存节点 n的缓存策略，在时隙t时，用户请求文件的平均时延为：权　利　要　求　书 2/3 页 3 CN 113993168 A 3

专利 一种雾无线接入网中基于多智能体强化学习的协作缓存方法

专利一种雾无线接入网中基于多智能体强化学习的协作缓存方法