(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111255936.5
(22)申请日 2021.10.27
(71)申请人 东南大学
地址 211189 江苏省南京市江宁区东 南大
学路2号
(72)发明人 蒋雁翔 常琦
(74)专利代理 机构 南京瑞弘专利商标事务所
(普通合伙) 32249
代理人 唐少群
(51)Int.Cl.
H04W 28/14(2009.01)
H04L 67/568(2022.01)
H04L 67/5682(2022.01)
G06N 3/00(2006.01)
G06N 20/00(2019.01)
(54)发明名称
一种雾无线接入网中基于多智能体强化学
习的协作缓存方法
(57)摘要
本发明公开了一种雾无线接入网中基于多
智能体强化学习的协作缓存方法, 包括: 根据缓
存节点的区域文件流行度, 初始化各节点的缓存
状态向量、 动作 向量、 历史缓存记录向量以及深
度强化学习参数; 根据用户请求文件, 每个节点
的学习模型做出缓存决策; 每个节 点根据缓存决
策更新其历史缓存记录, 并与邻近的节点进行通
信; 缓存节 点根据当前的缓存状态和 邻近节点状
态, 选择传输路径应答用户请求, 并且计算用户
需求的传输时延; 根据传输延迟, 缓存节点计算
全局的价值函数, 对自身学习和 邻近节点的学习
模型参数进行更新; 在遍历所有缓存节点后, 一
个训练周期结束。 本发明加强缓存节 点之间的交
互, 进一步的降低用户需求时延。
权利要求书3页 说明书7页 附图2页
CN 113993168 A
2022.01.28
CN 113993168 A
1.一种雾无线接入网中基于多智能体强化学习的协作缓存方法, 其特征在于, 所述协
作缓存方法包括如下步骤:
步骤S1、 根据所有缓存节点的区域内容流行度 [P1,P2,...,Pn,...,PN], 初始化缓存节点
n的状态空间
历史缓存记录
对协作节点m的观测值
以及深度强化学习的当前网
络参数
并设定深度强化学习的目标网络参数
得到所有缓存节点的联合状态空
间
其中, N为雾无线接入网中的缓存节点的总个数,
协
作节点m为 通过后传链路与缓存节点 n建立连接的节点;
步骤S2、 在第t个时隙, 定义缓存节点n的状态空间
其中,
表示缓存节点n的存储 空间中第s个位置存储的文件索引, F表示文
件库中文件总数,
表示缓存节点n所收集到的用户请求内容, S 表示缓存节点n可缓存的文
件最大数量;
并且定义缓存节点n的动作空间
其中,
表示缓存节点n将用收
集到的用户请求文件
替代存储空间中的第s个文件,
表示缓存节点n所收集到的用
户请求文件
不需要被缓存;
步骤S3、 缓存节点n收集用户的文件请求, 基于本地内容缓存信息, 进行缓存动作
的
选择, 做出缓存决策:
步骤S4、 缓存节点n根据选择的动作, 更新缓存节点的历史缓存记录
并与邻近的节
点建立通信过程, 传递缓存节点的历史缓存记录, 得到对协作节点的观察 值
步骤S5、 基于步骤S4中缓存节点n做出的缓存决策计算用户的文件传输时延, 建立文件
传输的优化问题, 并转 化为多智能体学习模型中的全局价 值函数Rt进行求解;
步骤S6、 利用梯度下降法对缓存节点n和其协作节点m的强化学习模型参数
和
进行
训练, 进入下一个缓存节点 n=n+1, 遍历所有缓存节点, 一个训练周期结束, t=t+1。
2.根据权利要求1所述的一种雾无线接入网中基于多智能体强化学习的协作缓存方
法, 其特征在于, 所述 步骤S3具体包括:
步骤S301、 缓存节点n获取其覆盖区域 内的所有用户发送的文件请求, 再根据获取的文
件请求概率得到该区域内的文件流行度, 其中, 该文件请求为用户根据其自身文件喜好度
来决定的, 定义
为缓存节点n 中的用户u对文件f的文件请求概率, 则, 缓存节点n根据所
有用户的文件请求 概率得到该区域内的文件流行度, 表达式为:
公 式 中 , Un为 缓 存 节 点 n 覆 盖 区 域 内 的 用 户集 合 , 内 容 流 行 度 向 量 为
步骤S302、 缓存节点n的强化学习模型会根据事先设定的贪婪算法的贪婪因子ε, 进行权 利 要 求 书 1/3 页
2
CN 113993168 A
2缓存动作
的选取:
公式中,
是缓存节点n中深度强化学习的当前网络的动作价值函数,
为
深度强化学习的当前网络的参数;
步骤S303、 缓存节点n根据选取的动作
进行缓存替代操作, 得到一个新的状态空间
3.根据权利要求2所述的一种雾无线接入网中基于多智能体强化学习的协作缓存方
法, 其特征在于, 所述 步骤S4具体包括:
步骤S401、 缓存节点n根据所选择的动作
计算缓存节点n的历史缓存记录, 具体包
括:
若
则表示缓存节点n不会发生文件的替换, 即缓存节点n对文件f的历史缓存记录
为
若
则表示缓存节点n将存储空间中的第
个文件替换为请求文件f, 即缓存节
点n对文件f的历史缓存记录为
同时被替换的文 件进行更新
步骤S402、 缓存节点n在完成对历史缓存记录的更新后, 通过与邻近的节点的通信过程
交互, 得到对邻近的节点缓存状态信息:
公式中, Nn为可与缓存节点 n进行协作的节点 集合。
4.根据权利要求3所述的一种雾无线接入网中基于多智能体强化学习的协作缓存方
法, 其特征在于, 所述 步骤S5具体包括:
步骤S501、 判断缓存节点 n以及其邻近的节点是否有缓存文件f, 其中,
若缓存节点n已经缓存文件f, 则缓存节点n直接将内容发送给用户, 产生的文件传输延
迟为
其中,
表示将文件f发送给用户所需要的时间;
若缓存节点n 没有缓存文件f, 但缓存节点n的邻近节点 m∈Nn缓存了文件f, 则邻近节点 m
将文件f传输给缓存节点n, 再通过缓存节点n发送给用户, 产生的文件传输延迟为
其中,
表示将文件f从节点m发送到节点 n所需要的时间;
若缓存节点n和其邻近的节点都没有缓存文件f, 则文件f将从云服务器的文件库中发
送给节点n, 再由节点发送给用户, 产生的文件传输时延 为
其中,
表示
将文件f从云服 务器发送到节点 n所需要的时间;
步骤S502、 根据缓存节点 n的缓存策略, 在时隙t时, 用户请求文件的平均时延为:权 利 要 求 书 2/3 页
3
CN 113993168 A
3
专利 一种雾无线接入网中基于多智能体强化学习的协作缓存方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:01:06上传分享