(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111302186.2
(22)申请日 2021.11.04
(71)申请人 东南大学
地址 210024 江苏省南京市玄武区新 街口
街道四牌楼 2号
(72)发明人 叶宇剑 袁泉 汤奕
(74)专利代理 机构 北京同辉知识产权代理事务
所(普通合伙) 11357
代理人 梁语嫣
(51)Int.Cl.
G06Q 10/04(2012.01)
G06Q 30/02(2012.01)
G06Q 40/04(2012.01)
G06N 3/00(2006.01)
G06N 20/00(2019.01)
(54)发明名称
一种面向含大规模产消者社区的可扩展能
量管理协同方法
(57)摘要
本发明公开了一种面向含大规模产消者社
区的可扩展能量管理协同方法, 该方法首先提出
一种将参数共享与优先深度确定性策略梯度算
法相结合的方法, 通过智能体间的策略与经验共
享以提升学习效率并降低训练难度。 其次, 构建
端对端交易平台以协同社区内产消者的电能交
易与共享; 执行奖励修正以避免反弹峰值以保护
本地配电网的安全运行; 以可信任第三方向产消
者提供有关社区市场的全局信息, 在保护各产消
者隐私的同时有效减 轻了环境非静态 性, 提升了
算法的可扩展性。 最后通过 实施例验证运用所述
方法能够协助大规模能源社区中多产消者的交
互及协同优化, 保护 产消者隐私信息并削减其运
行成本, 且与现有技术相比提高了运算效率, 降
低了运算复杂度。
权利要求书4页 说明书12页 附图5页
CN 114021815 A
2022.02.08
CN 114021815 A
1.一种面向含大规模产消者社区的可扩展能量管理协同方法, 其特 征在于:
构建多智能体强化学习模型 管理产消者端对端能源交易, 产消者作为智能体;
智能体强化学习模型包括:
S1、 构建基于可观测马尔科 夫博弈模型的智能体强化学习模型, 包括:
1)观测量: 智能体n在 时刻t的观测量on,t包括t、 过去24小时的每半小时零售商购电价
零售商售电价
光伏发电量
不可控负荷曲线
储能与电动汽车的电
池电量
用于判断电动汽车是否可控的二值状态量
SA(智能家电)的运
行状态量
工作进度
以及剩余进度
2)动作: 智能体n在时刻t的动作an,t包括储能、 电动汽车和智能家电的控制决策,
其中
分别为储能和电动汽车的充电功率占其最大额定功率的
比例, 为正表示充电, 为负表示放电;
表示智能家电在t时刻是否启动工作流程, 为
1表示启动, 为0表示尚未启动;
3)状态迁移: 由t向t+1时刻的状态迁移函数为st+1=T/(st,a1:N,t,ωt), 其中ωt表示随
机性, 由外部特征[ λb, λs,Pid,Ppv]组成, 分别为1)中所述零售商购电价、 零售商售电价、 不可
控负荷和光伏发电量的观测量向量;
内部特征的状态迁移特性直接由智能体t时刻动作确定; 设电动汽车的充、 放电功率分
别为
和
同时受
和电动汽车运行参数的影响, 有
式中
和
分别为电动汽车电池容量上、 下限, 充、 放电效率和产消
者的出行电量需求;
智能家电的工作流程的总时长为
和
分别表示启动时间和预计完成时间, 需满
足
则智能家电的状态迁移可表示 为:
式中工作进度
表示已完成部分,
为完成剩余进度所需时间; 智能家电的运
行功率可表示 为:
权 利 要 求 书 1/4 页
2
CN 114021815 A
2其中
为产消者 n的智能家电在工作阶段t ′的功率;
因此, 产消者 n在t时刻的净负荷ln,t如下式所示;
4)奖励: 基础奖励设为产消者总运行成本的负值,
在基础奖励上增设了一个 违反电动汽车用户出 行满意度的罚项, 如下式;
当
式中κ1为罚项因子,
为产消者n的电动汽车出行时电量,
为产消者n的计划出行
时间;
S2、 构建基于采用参数共享的优先深度确定性策略梯度算法的智能体强化学习模型:
评判器网络Qθ以状态st和动作at为输入, 输出标量Q函数估值Qθ(st,at), 负责评判 当前
策略; 执行器网络 μφ以状态st为输入, 输出连续动 作 μφ(st), 负责根据评判器网络所估计的Q
值做出策略提升;
通过调节策略参数φ使性能函数
按性能梯度
方向最大化, 其中ρμ为
折扣状态分布, 依据确定性策略梯度理论, 策略的性能梯度为:
在所考虑的多智能体系统中, 各智能体的性能梯度可表示 为:
式中, Qθ(·)为共享的集中式Q值函数, 其输入 为所有智能体的观测量和动作, 输 出为策
略的Q值估值;
S3、 在集中式训练阶段由P2P交易平台作为一个可信的第三方主体向各智能体提供社
区在社区市场中的集体交易行为(总购买量与总售出量), 则智能体n的多智能体联合Q值函
数可近似为:
Qθ(o1,t,…,oN,t,a1,t,…,aN,t)≈Qθ(on,t,an,t, ψn,t, ξn,t)
式中,
和
分别表示除产消者n以外其他所有产消者的总负荷
和总发电, 即用低维向量(on,t,an,t, ψn,t, ξn,t)代替原本高维包含所有产消者观测量与动作
信息的向量(o1,t,...,oN,t,a1,t,...,aN,t), 其中ψn,t和 ξn,t为除产消者n以外的产消者本地观
测量和动作的嵌入函数及其近似值;
S4、 智能体采用经验回放池R存放过去的经验, 大小 为NR, 再用优先采样策略采 集大小为
NJ的小批量经验样本训练执行器和评判器; 每个智能体n在时段t与环境交互可生成经验元
组(on,t,an,t,rn,t,on,t+1, ψn,t, ξn,t, ψn,t+1, ξn,t+1),
小批量经验样本训练执 行器和评判器, 包括:
基于绝对时序差分误差, 定义采样经验j的概 率为
式中, 参数β 表示采样的优先程度,
为与经验(n,j)相关的优先级,
为经验池权 利 要 求 书 2/4 页
3
CN 114021815 A
3
专利 一种面向含大规模产消者社区的可扩展能量管理协同方法
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:01:08上传分享