CN118554555A

CN118554555A - 一种基于masac算法的配电网分布式光伏电压无功控制方法

Info

Publication number: CN118554555A
Application number: CN202410467035.XA
Authority: CN
Inventors: 吴浩; 邹斌; 杨金明; 陶金; 戴亮; 董庆森; 韩禹; 李季; 鞠秋萍
Original assignee: Taizhou Kaitai Electric Power Design Co ltd; Jiangsu Xiangtai Electric Power Industry Co ltd; Taizhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Taizhou Kaitai Electric Power Design Co ltd; Jiangsu Xiangtai Electric Power Industry Co ltd; Taizhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2024-04-18
Filing date: 2024-04-18
Publication date: 2024-08-27

Abstract

本发明公开了一种基于MASAC算法的配电网分布式光伏电压无功控制方法，属于电力系统自动化技术和人工智能强化学习领域，首先构建计及分布式PV的配电网电压无功去中心化控制框架，将配电网的电压无功去中心化控制问题转化为一个马尔科夫博弈模型；然后构建MASAC算法求解马尔科夫博弈模型，为每个智能体构建Actor和Critic神经网络，采用集中式训练的方式神经网络进行训练，得到配电网分布式光伏电压无功控制模型，然后利用该模型实现配电网电压的在线控制，完成配电网电压的在线控制，实现光伏逆变器的去中心化调控。本发明可以降低通信需求与计算负担，改善电网电压稳定性，适用性广泛且灵活。

Description

一种基于MASAC算法的配电网分布式光伏电压无功控制方法

技术领域

本发明属于电力系统自动化技术和人工智能强化学习领域，具体涉及一种基于MASAC算法的配电网分布式光伏电压无功控制方法。

背景技术

随着分布式能源资源特别是PV(photovoltaic，光伏)的渗透率不断增加，它们对于满足日益增长的电力需求和环境保护愈发重要。然而，这些资源的不可预测性和波动性给系统运营商带来了诸多技术挑战。特别是在低负载情况下，由于PV过度渗透引起的反向电流导致的过电压问题，这一点尤其值得关注。为了改善配电网络的电压曲线，无功电压控制(VVC)是一种有效的工具，可用于控制传统无功电源或新加入逆变器的无功功率设定点，以调节配电网的电压。VVC方法通过利用电容器组和智能逆变器的无功功率吸收/注入能力来调节电压。从控制策略的角度来看，电压调节方法可以分为四类：集中控制、本地控制和分布式控制以及去中心化控制。集中控制需要建立快速的通信渠道，成本较高；本地控制和分布式控制则受制于智能体间协调的需求，而在许多应用中这可能是不可行的。最后，去中心化控制通过结合分布式和集中控制方法的优点，利用分区控制以及区间协调。传统的去中心化控制模型需要系统拓扑和参数，这在实际的配电系统中尤其是在大量屋内光伏单元普及的情况下难以获得。因此，开发一种不依赖配电网精确参数的去中心化控制方法将克服上述挑战。

深度强化学习作为最常用的基于机器学习的方法之一，因为它们可以学习到最优控制策略而广受关注。在深度强化学习方法中，通过与环境的持续互动获得行动与状态之间的相关性。因此，它减少了对获取系统参数完整信息的依赖。一个训练有素的深度强化学习智能体可以为现实世界中的任何新动态提供适应性强的行动。已有研究使用基于深度强化学习的无功电压控制框架进行配电网络的电压调节。然而，这些方法需要通信链接和集中处理以根据系统状态做出决策，因此它们可能不适用于具有成千上万PV的大规模电网。有研究提出了一种多智能体深度强化学习(MADRL)方法，使用多智能体深度确定性策略梯度(MADDPG)算法进行电压调节，该方法仅在集中训练阶段进行，而在去中心化执行阶段减少了众多分布式资源之间实时通信的必要性。然而，它们探索效率不佳，不适合解决大规模电力系统中的多智能体决策场景。

发明内容

本发明针对现有技术中存在的问题，提供了一种基于MASAC算法的配电网分布式光伏电压无功控制方法，更好地应用于大规模电力系统光伏调控。

为解决以上技术问题，本发明提供如下技术方案：一种基于MASAC算法的配电网分布式光伏电压无功控制方法，包括如下步骤：

S1、构建记及分布式光伏的配电网电压无功去中心化控制框架，将配电网电压无功去中心化控制问题转化为马尔科夫博弈模型；

配电网电压无功去中心化控制框架包括：以最小化一段时间内配电网的有功功率损耗为目标、以分布式的光伏逆变器为决策变量、以及以预设电压范围为约束条件；

马尔科夫博弈模型包括：状态空间：各个智能体所包括的光伏逆变器的有功/无功功率的净注入量和光伏逆变器电压幅值构成的局部观测值集合，动作空间：所有智能体控制的光伏逆变器的无功输出量构成的动作集合；奖励函数：由有功损耗成本、以及电压越限惩罚构建；状态转移过程：智能体的状态遵循配电网的潮流计算约束并且根据状态转移概率分布进行更新；

S2、构建MASAC算法求解马尔科夫博弈模型，为每个智能体构建Actor和Critic神经网络，Actor神经网络决定智能体的策略，Critic神经网络用于判定策略的价值；

采用集中式训练的方式神经网络进行训练，得到配电网分布式光伏电压无功控制模型，然后利用该模型实现配电网电压的在线控制，完成配电网电压的在线控制，实现光伏逆变器的去中心化调控。

进一步地，前述的步骤S1中，以最小化一段时间内配电网的有功功率损耗为目标，具体是构建目标函数如下式：

其中，T表示优化时间段，P_loss(t)表示时刻t的有功网络损耗。

进一步地，前述的步骤S1中，约束条件为：

其中，V_k(t)是光伏逆变器k在t时刻的电压，V和分别为预设的电压下限和上限。

进一步地，前述的步骤S1中，状态空间S为所有光伏逆变器在t时刻局部观测值s_i,t的集合，s_i,t为智能体i在t时刻的局部观测值，s_i,t＝(p_i,q_i,v_i)，p_i,q_i和v_i分别代表智能体i所在的光伏逆变器的有功/无功功率的净注入量和节点电压幅值；

动作空间A为所有智能体在t时刻控制的光伏逆变器的无功输出量构成的动作a_i,t的集合，Q_PV,i,t是智能体i在时间t时刻所控制的PV逆变器的无功输出量。

进一步地，前述的步骤S1中，奖励函数如下式：

式中，R(t)为t时刻的奖励值，P_loss(t)为t时刻的有功损耗，函数为0-1判别函数，当k节点的电压V_k(t)满足上下限V,时函数f为0，否则为1，σ₁为单位有功损耗成本，σ₂为电压越限惩罚因子。

进一步地，前述的步骤S1中，状态转移过程利用PYPOWER潮流计算工具建立配电网的环境，使用runpf函数进行潮流计算，潮流计算约束包括功率平衡约束和潮流约束；智能体的状态转移概率分布为P(s′|s,a)，表示智能体根据当前状态S_t采取动作a_t后，环境在动作a_t作用下，由S_t转移至S′_t的概率。

进一步地，前述的步骤S2包括以下子步骤：

S201、基于Actor网络构建每个智能体的每个智能体的行动者网络，每个智能体的行动者网络的策略如下式：

其中，为每个智能体在特定时间点t采取的行动，由Actor网络决定；i代表智能体的索引，智能体i在时间t的状态向量表示为每个智能体的策略记为是基于压缩高斯分布的策略；

S202、每个智能体基于最大化预期回报与策略的熵迭代更新，联合策略π(a_t|s_t)的熵H(π)，如下式：

式中，H(π_i)为各局部策略的熵，代表策略的随机性，是系统中不确定性的量化；N是智能体的个数；

S203、在策略评估阶段，对Critic网络参数θ进行训练，减少Bellman残差:

J_Q(θ)是Critic网络参数θ的目标函数，它通过最小化该函数来训练网络参数；表示对当前策略产生的状态-动作对的期望，是在当前状态s_t和动作a_t的分布下计算的，D是经验回放缓冲区，它存储了先前的用于训练；Q(s_t,a_t)代表动作值函数，γ是折扣因子，用于计算未来奖励的现值，它的值介于0和1之间；r(s_t,a_t)是在状态s_t下采取动作a_t所获得的即时奖励；V_θ是由参数θ参数化的价值函数网络对下一个状态s_t+1的价值估计；α表示温度参数是熵正则化系数，它权衡了奖励和熵之间的关系，以鼓励探索。

利用随机策略梯度对Critic网络的参数进行优化，如下式：

式中：

其中，r为即时奖励值，φ_i为每个智能体的策略参数，

S204、策略制定阶段，Actor网络目标函数如下式：

式中，代表最佳联合策略，Q(s_t,a_t)代表动作值函数，α表示温度参数；π′是目标策略；

S205、每个智能体的策略通过最小化其行动者网络产生的动作的预期熵进行训练，如下式所示：

采用随机梯度下降法更新每个智能体的策略参数φ_i，α更新如下式：

式中，H'为目标熵，目标熵是由超参数组成的等效向量；

相较于现有技术，本发明采用以上技术方案的有益技术效果如下：

1、降低通信需求与计算负担：本发明的多智能体基于深度强化学习方法能够以去中心化的方式执行，显著减少了智能体网络间的通信需求。特别是在包含大量分布式能源资源的复杂电力系统中，这一优点减轻了集中式方法带来的计算负担，从而提高了系统的整体效率和可靠性。

2、改善电网电压稳定性：通过协调控制光伏逆变器的无功功率设定点，本发明有效改善配电网络的电压曲线，提升电网的电压稳定性。这对于应对太阳能发电的不稳定性和波动性尤为重要。

3、适用性广泛且灵活：本发明不依赖于系统建模，使其能够灵活应用于各种不同的配电网络配置中，无需对系统拓扑或参数进行详细了解。这增加了方法的适用范围，尤其是对于那些难以获取准确系统数据的配电网络。

4、强化学习算法的优化：所开发的MASAC算法具有强大的探索能力，能够有效地为智能体寻找最佳行动方案。与传统基于最大熵的软Q学习方法相比，本发明避免了潜在的复杂性和不稳定性问题，增强了算法的稳定性和可靠性。

附图说明

图1为本发明的方法流程图。

图2为一个实施例提供的MASAC算法的训练结果示意图。

图3为一个实施例提供的MASAC算法的测试结果示意图。

图4为一个实施例提供的无功电压控制鲁棒性测试结果示意图。

图5为本发明一个实施例提供的无功电压控制所有节点电压效果示意图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本发明中参照附图来描述本发明的各方面，附图中示出了许多说明性实施例。本发明的实施例不局限于附图所述。应当理解，本发明通过上面介绍的多种构思和实施例，以及下面详细描述的构思和实施方式中的任意一种来实现，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

如图1所示，本发明提供一种基于MASAC算法的配电网分布式光伏电压无功控制方法，包括如下步骤：

马尔科夫博弈模型包括：状态空间：各个智能体所包括的光伏逆变器的有功/无功功率的净注入量和光伏逆变器电压幅值构成的局部观测值集合，动作空间：所有智能体控制的光伏逆变器的无功输出量构成的动作集合；奖励函数：由有功损耗成本、以及电压越限惩罚构建；状态转移过程：智能体的状态遵循配电网的潮流计算约束并且根据状态转移概率分布进行更新。

(1)目标函数:电压无功控制的目标是在确保节点电压不越限的情况下最小化一段时间内配电网的有功功率损耗，目标函数如下式：

(2)决策变量：配电网的电压无功去中心化控制对象为分布式的PV逆变器，通过调节分布式PV逆变器的无功功率输出Q_PV来完成对配电网的去中心化控制。

(3)约束条件：配电网的电压无功去中心化控制最主要的是节点电压约束在控制的过程中要确保节点电压在规定的限制范围V和内。

(4)状态空间：状态空间S表示所有智能体在t时刻的状态，而s_i,t表示智能体i在t时刻的局部观测值，s_i,t＝(p_i,q_i,v_i)，这里p_i,q_i和v_i分别代表智能体i所在局部节点的有功/无功功率的净注入量和节点电压幅值，S为所有节点状态的集合。

(5)动作空间：动作空间A表示在时间t时所有智能体的动作集合，a_i,t表示智能体i在时间t时刻所控制的PV逆变器的无功输出量Q_PV,i,t。

(6)奖励函数：奖励函数方程式来衡量智能体所做动作的，所有智能体共享相同的奖励函数，该方程式由有功损耗成本和电压越限惩罚两部分组成，如下：

上式中，R(t)为t时刻的奖励值，P_loss(t)为t时刻的有功损耗，函数为0-1判别函数，当k节点的电压V_k(t)满足上下限V,时函数f为0，否则为1，电压幅值上下限被设置为1.05和0.95，σ₁为单位有功损耗成本，σ₂为电压越限惩罚因子。

(7)状态转移过程：智能体的动作送入环境后的状态转移过程要严格遵循配电网的潮流计算约束,包含功率平衡约束和潮流约束，本发明使用PYPOWER潮流计算工具来搭建配电网的环境，同时使用runpf函数进行潮流计算，该函数在计算潮流时会自动满足功率平衡约束和潮流约束，智能体的状态转移概率分布由P(s′|s,a)表示，代表智能体根据当前状态S_t采取动作a_t后，环境在动作a_t作用下，由S_t转移至S′_t的概率。

本发明中，多智能体MASAC的主要创新之处在于其集中式训练与去中心化执行的过程。在训练阶段，Critic网络通过使用全局信息进行集中式训练，而在执行阶段，每个智能体则利用其本地观测作为个别输入，以去中心化的方式制定自己的控制策略，即使用压缩高斯分布函数来生成连续动作。本发明提出的方法中，策略被训练为最大化熵与预期回报之间的权衡。这有助于避免过早收敛的问题，这对于实现全局最优是必需的。MASAC框架中每个智能体的行动者网络的策略可按以下方式表示：

其中，为每个智能体在特定时间点t采取的行动，由Actor网络决定；i代表智能体的索引，智能体i在时间t的状态向量表示为每个智能体的策略记为是基于压缩高斯分布的策略。

每个智能体都拥有其独立的策略，该策略在每次迭代中更新，以最大化预期回报与策略的熵之间的权衡。策略的熵代表策略的随机性，是系统中不确定性的量化。联合策略π(a_t|s_t)的熵H(π)可以按照以下方式表达：

式中，H(π_i)为各局部策略的熵，N是智能体的个数；

在策略评估阶段，对Critic网络参数θ进行训练，使其减少Bellman残差:

式中，J_Q(θ)是Critic网络参数θ的目标函数，它通过最小化该函数来训练网络参数；表示对当前策略产生的状态-动作对的期望，是在当前状态s_t和动作a_t的分布下计算的，D是经验回放缓冲区，它存储了先前的经验(状态、动作、奖励等)来用于训练；Q(s_t,a_t)代表动作值函数，γ是折扣因子，用于计算未来奖励的现值，它的值介于0和1之间；r(s_t,a_t)是在状态s_t下采取动作a_t所获得的即时奖励；V_θ是由参数θ参数化的价值函数网络对下一个状态s_t+1的价值估计；α表示温度参数是熵正则化系数，它权衡了奖励和熵之间的关系，以鼓励探索。

在优化过程中，利用随机策略梯度对Critic网络的参数进行优化：

式中：

式中，r为即时奖励值，φ_i为每个智能体的策略参数，

在策略制定阶段，MASAC算法的Actor网络目标可以表示为:

式中，π′是目标策略，代表最佳联合策略，Q(s_t,a_t)代表动作值函数，α表示温度参数，每个智能体的策略参数化为φ_i，旨在通过训练来降低预期熵。

具体来说，每个智能体的策略通过以下目标进行训练：最小化其行动者网络产生的动作的预期熵，如下式所示：

采用随机梯度下降法更新每个智能体的策略参数φ_i，最后，α可以用下式来更新：

式中H'为目标熵，目标熵是由超参数组成的等效向量。针对所有智能体训练Actor和Critic神经网络，并在目标函数中考虑Q函数的最小值，以最小化对状态值的高估。

本发明提出的MASAC方法旨在优化智能体的无功功率输出，以调节配电网节点的电压，将每个PV看做一个智能体进行控制。在训练阶段，每个智能体的动作被提供给集中式Critic网络，以计算奖励并将其发送给智能体用于策略更新，其离线训练流程如下表所示：

步骤4：部署步骤3中训练好的强化学习智能体，采用分布式执行的方式完成配电网电压的在线控制，实现各PV的去中心化调控；

当智能体训练得当后，它们仅以局部状态作为输入并在不与集中控制器通信的情况下做出行动，下表为去中心化的分布式在线执行流程：

为了评估本发明提出的电压控制框架的性能，进行了在修改后的IEEE 34母线测试系统上的仿真实验。在不同节点上添加了十二个聚合光伏逆变器，总发电容量为1576kW。由于最大负载需求为1756kW，最大太阳能光伏发电量约占总峰值负载的90％。去中心化智能体的性能在与训练数据集不同的负载和光伏曲线下进行了测试。此外，控制逆变器的无功功率以确保其运行功率因数不低于制造商推荐的0.9。作为电力流求解器，使用了PYPOWER，并与Python接口相连，作为学习和测试环境。

对各智能体进行500集的训练，学习最优控制策略，以找到应对电压违规场景的最优行为。Actor网络和Critic网络都由全连接的神经网络组成，全连接的神经网络由输入层、输出层和隐藏层组成，其参数如下表所示。

在训练的初级阶段，个体随机探索环境的决策空间，最终如图2所示，在特定事件发生后收敛并提供最优行动。训练阶段结束后，每个被训练的智能体只需要其局部状态来提供解决调压问题的最优动作。本发明通过这些仿真实验验证了去中心化智能体在不同负载和光伏曲线条件下的有效性和适应性。

图3描述了训练模型和基本情况下测试系统某节点处的电压波动情况。可以观察到，在基本情况场景中，根据电压标准限值存在电压违规，而在提出的MASAC算法的控制方式下没有电压违规。此外，在基本情况下，电压的变化比所提出的训练模型要大。

图4显示了训练模型和基本场景下所测试节点的电压波动情况。结果表明，所提出的方法具有较好的性能。最后，图5描述了所有34个节点在第20分钟电压的变化。结果表明，所提出的训练模型在电压变化和违规方面比基本情况有更好的电压分布。

虽然本发明已以较佳实施例阐述如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于MASAC算法的配电网分布式光伏电压无功控制方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于MASAC算法的配电网分布式光伏电压无功控制方法，其特征在于，步骤S1中，以最小化一段时间内配电网的有功功率损耗为目标，具体是构建目标函数如下式：

3.根据权利要求1所述的一种基于MASAC算法的配电网分布式光伏电压无功控制方法，其特征在于，步骤S1中，约束条件为：

4.根据权利要求1所述的一种基于MASAC算法的配电网分布式光伏电压无功控制方法，其特征在于，步骤S1中，状态空间S为所有光伏逆变器在t时刻局部观测值s_i,t的集合，s_i,t为智能体i在t时刻的局部观测值，s_i,t＝(p_i,q_i,v_i)，p_i,q_i和v_i分别代表智能体i所在的光伏逆变器的有功/无功功率的净注入量和节点电压幅值；

5.根据权利要求1所述的一种基于MASAC算法的配电网分布式光伏电压无功控制方法，其特征在于，步骤S1中，奖励函数如下式：

6.根据权利要求1所述的一种基于MASAC算法的配电网分布式光伏电压无功控制方法，其特征在于，步骤S1中，状态转移过程利用PYPOWER潮流计算工具建立配电网的环境，使用runpf函数进行潮流计算，潮流计算约束包括功率平衡约束和潮流约束；智能体的状态转移概率分布为P(s′|s,a)，表示智能体根据当前状态S_t采取动作a_t后，环境在动作a_t作用下，由S_t转移至S′_t的概率。

7.根据权利要求1所述的一种基于MASAC算法的配电网分布式光伏电压无功控制方法，其特征在于，步骤S2包括以下子步骤：

J_Q(θ)是Critic网络参数θ的目标函数，它通过最小化该函数来训练网络参数；表示对当前策略产生的状态-动作对的期望，是在当前状态s_t和动作a_t的分布下计算的，D是经验回放缓冲区，它存储了先前的用于训练；Q(s_t,a_t)代表动作值函数，γ是折扣因子，用于计算未来奖励的现值，它的值介于0和1之间；r(s_t,a_t)是在状态s_t下采取动作a_t所获得的即时奖励；V_θ是由参数θ参数化的价值函数网络对下一个状态s_t+1的价值估计；α表示温度参数是熵正则化系数，它权衡了奖励和熵之间的关系，以鼓励探索；

利用随机策略梯度对Critic网络的参数进行优化，如下式：

式中：

其中，r为即时奖励值，φ_i为每个智能体的策略参数，

S204、策略制定阶段，Actor网络目标函数如下式：

式中，H'为目标熵，目标熵是由超参数组成的等效向量；

S206、针对所有智能体训练Actor和Critic神经网络，并在目标函数中取Q函数的最小值。