专利 一种面向含大规模产消者社区的可扩展能量管理协同方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111302186.2 (22)申请日 2021.11.04 (71)申请人东南大学地址 210024 江苏省南京市玄武区新街口街道四牌楼 2号 (72)发明人叶宇剑　袁泉　汤奕　 (74)专利代理机构北京同辉知识产权代理事务所(普通合伙) 11357 代理人梁语嫣 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 30/02(2012.01) G06Q 40/04(2012.01) G06N 3/00(2006.01) G06N 20/00(2019.01) (54)发明名称一种面向含大规模产消者社区的可扩展能量管理协同方法 (57)摘要本发明公开了一种面向含大规模产消者社区的可扩展能量管理协同方法，该方法首先提出一种将参数共享与优先深度确定性策略梯度算法相结合的方法，通过智能体间的策略与经验共享以提升学习效率并降低训练难度。其次，构建端对端交易平台以协同社区内产消者的电能交易与共享；执行奖励修正以避免反弹峰值以保护本地配电网的安全运行；以可信任第三方向产消者提供有关社区市场的全局信息，在保护各产消者隐私的同时有效减轻了环境非静态性，提升了算法的可扩展性。最后通过实施例验证运用所述方法能够协助大规模能源社区中多产消者的交互及协同优化，保护产消者隐私信息并削减其运行成本，且与现有技术相比提高了运算效率，降低了运算复杂度。权利要求书4页说明书12页附图5页 CN 114021815 A 2022.02.08 CN 114021815 A 1.一种面向含大规模产消者社区的可扩展能量管理协同方法，其特征在于：构建多智能体强化学习模型管理产消者端对端能源交易，产消者作为智能体；智能体强化学习模型包括： S1、构建基于可观测马尔科夫博弈模型的智能体强化学习模型，包括： 1)观测量：智能体n在时刻t的观测量on,t包括t、过去24小时的每半小时零售商购电价零售商售电价光伏发电量不可控负荷曲线储能与电动汽车的电池电量用于判断电动汽车是否可控的二值状态量 SA(智能家电)的运行状态量工作进度以及剩余进度 2)动作：智能体n在时刻t的动作an,t包括储能、电动汽车和智能家电的控制决策，其中分别为储能和电动汽车的充电功率占其最大额定功率的比例，为正表示充电，为负表示放电；表示智能家电在t时刻是否启动工作流程，为 1表示启动，为0表示尚未启动； 3)状态迁移：由t向t+1时刻的状态迁移函数为st+1＝T/(st,a1:N,t,ωt)，其中ωt表示随机性，由外部特征[ λb, λs,Pid,Ppv]组成，分别为1)中所述零售商购电价、零售商售电价、不可控负荷和光伏发电量的观测量向量；内部特征的状态迁移特性直接由智能体t时刻动作确定；设电动汽车的充、放电功率分别为和同时受和电动汽车运行参数的影响，有式中和分别为电动汽车电池容量上、下限，充、放电效率和产消者的出行电量需求；智能家电的工作流程的总时长为和分别表示启动时间和预计完成时间，需满足则智能家电的状态迁移可表示为: 式中工作进度表示已完成部分，为完成剩余进度所需时间；智能家电的运行功率可表示为：权　利　要　求　书 1/4 页 2 CN 114021815 A 2其中为产消者 n的智能家电在工作阶段t ′的功率；因此，产消者 n在t时刻的净负荷ln,t如下式所示； 4)奖励：基础奖励设为产消者总运行成本的负值，在基础奖励上增设了一个违反电动汽车用户出行满意度的罚项，如下式；当式中κ1为罚项因子，为产消者n的电动汽车出行时电量，为产消者n的计划出行时间； S2、构建基于采用参数共享的优先深度确定性策略梯度算法的智能体强化学习模型：评判器网络Qθ以状态st和动作at为输入，输出标量Q函数估值Qθ(st,at)，负责评判当前策略；执行器网络 μφ以状态st为输入，输出连续动作 μφ(st)，负责根据评判器网络所估计的Q 值做出策略提升；通过调节策略参数φ使性能函数按性能梯度方向最大化，其中ρμ为折扣状态分布，依据确定性策略梯度理论，策略的性能梯度为：在所考虑的多智能体系统中，各智能体的性能梯度可表示为：式中， Qθ(·)为共享的集中式Q值函数，其输入为所有智能体的观测量和动作，输出为策略的Q值估值； S3、在集中式训练阶段由P2P交易平台作为一个可信的第三方主体向各智能体提供社区在社区市场中的集体交易行为(总购买量与总售出量)，则智能体n的多智能体联合Q值函数可近似为： Qθ(o1,t,…,oN,t,a1,t,…,aN,t)≈Qθ(on,t,an,t, ψn,t, ξn,t) 式中，和分别表示除产消者n以外其他所有产消者的总负荷和总发电，即用低维向量(on,t,an,t, ψn,t, ξn,t)代替原本高维包含所有产消者观测量与动作信息的向量(o1,t,...,oN,t,a1,t,...,aN,t)，其中ψn,t和 ξn,t为除产消者n以外的产消者本地观测量和动作的嵌入函数及其近似值； S4、智能体采用经验回放池R存放过去的经验，大小为NR，再用优先采样策略采集大小为 NJ的小批量经验样本训练执行器和评判器；每个智能体n在时段t与环境交互可生成经验元组(on,t,an,t,rn,t,on,t+1, ψn,t, ξn,t, ψn,t+1, ξn,t+1)，小批量经验样本训练执行器和评判器，包括：基于绝对时序差分误差，定义采样经验j的概率为式中，参数β 表示采样的优先程度，为与经验(n,j)相关的优先级，为经验池权　利　要　求　书 2/4 页 3 CN 114021815 A 3

专利 一种面向含大规模产消者社区的可扩展能量管理协同方法

专利一种面向含大规模产消者社区的可扩展能量管理协同方法