拓扑感知图强化学习用于并网微电网的电压-无功功率控制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Electricity》：Topology-Aware Graph Reinforcement Learning for Voltage-Reactive Power Control in Grid-Connected Microgrids

【字体：大中小】 时间：2026年06月23日 来源：Electricity 1.8

编辑推荐：

　　随着全球能源转型加速，配电系统正在整合越来越多的逆变器接口可再生能源，使得可靠的电压支持成为关键运行要求。在并网微电网中，尤其是在农村和偏远地区的弱径向馈线上，电压-无功功率（Volt/Var）控制必须在光伏（PV）间歇性、负荷波动和公共耦合点（PCC）扰动带

随着全球能源转型加速，配电系统正在整合越来越多的逆变器接口可再生能源，使得可靠的电压支持成为关键运行要求。在并网微电网中，尤其是在农村和偏远地区的弱径向馈线上，电压-无功功率（Volt/Var）控制必须在光伏（PV）间歇性、负荷波动和公共耦合点（PCC）扰动带来的不确定性下协调多个逆变器。现有的下垂控制、基于模型的优化和非图强化学习（RL）方法通常依赖固定规则或未明确利用电气拓扑，这限制了自适应协调能力。为弥补这一不足，研究人员提出了一种拓扑感知图强化学习框架，用于不确定性下并网微电网的电压-无功功率控制。该方法利用图卷积网络（GCN）编码节点状态，并通过近端策略优化（PPO）学习协调的光伏/储能无功功率动作，采用多目标奖励平衡电压质量、控制努力和动作平滑性。在与具有相同动作空间、奖励和PPO目标的多层感知机（MLP）-PPO基线的受控对比中，该方法将电压违规率（VVR）从0.0316 ± 0.0086降低至0.0048 ± 0.0019。在修改的IEEE 33节点馈线上的额外验证进一步将VVR从MLP-PPO的0.00726和下垂控制的0.02999降低至0.00095，支持了拓扑感知状态表示在更大径向基准馈线上的有效性。

### 论文解读：拓扑感知图强化学习用于并网微电网的电压-无功功率控制

#### 研究背景、问题与意义

随着全球能源系统向低碳化转型，光伏（PV）发电和电池储能等分布式能源在配电网中渗透率持续增长，推动电力系统从被动输电向灵活主动协调运行转变。并网微电网作为集成分布式发电、储能和本地负荷的重要运行范式，被视为未来智能电网的关键组成部分。然而，逆变器接口可再生能源的高比例接入带来了显著的不确定性和时变运行条件——光伏间歇性、负荷波动以及公共耦合点（PCC）的扰动会加剧电压偏差、无功功率失配和电能质量问题。特别是在农村和偏远地区的弱径向馈线上，电压调节对运行不确定性更为敏感。因此，实现高效、协调且自适应的电压-无功功率（Volt/Var）控制已成为并网微电网安全稳定运行的关键需求。

现有研究主要分为三类：基于下垂的本地/分散控制、基于模型的优化控制和基于学习的控制。下垂控制结构简单但依赖固定规则，缺乏系统级协调能力；模型预测控制（MPC）等优化方法虽能处理约束，但高度依赖精确模型和预测质量，在快速变化环境下适应性有限；强化学习（RL）已显示出控制不确定性的潜力，但多数研究未显式利用电气拓扑结构进行状态表示，也未聚焦于并网微电网中多逆变器资源的协调Volt/Var控制。因此，亟需一种拓扑感知、自适应的Volt/Var控制框架，能够在不确定运行条件下有效协调多个逆变器接口资源。

#### 研究内容、结论与发表期刊

本研究聚焦于并网微电网中由光伏波动、负荷变化和PCC扰动引发的自适应协调Volt/Var控制问题，提出了一种拓扑感知图强化学习（GRL）框架。该框架将微电网建模为图，通过图卷积网络（GCN）编码节点状态，结合近端策略优化（PPO）学习连续的无功功率控制动作，并设计多目标奖励函数平衡电压质量、控制努力和动作平滑性。研究在标准五节点系统、扰动升级场景、未见混合扰动场景以及修改的IEEE 33节点馈线上进行了全面验证。结果表明，所提方法在电压质量指标（如平均电压偏差AVD、电压违规率VVR、最大电压偏差MVD）和控制平滑性方面显著优于下垂控制和基于多层感知机（MLP）的非图PPO基线，且鲁棒性和泛化能力更强。该论文发表在《Electricity》期刊。

#### 关键技术与方法

研究所用的主要技术方法包括：**(1) 图建模**：将并网微电网表示为无向图，节点对应母线，边对应馈线连接，节点特征包含电压幅值、有功/无功注入、节点类型指示符及上一控制动作，边特征包含馈线电阻和电抗。**(2) 拓扑感知状态嵌入**：通过两层图卷积网络（GCN）进行消息传递，结合归一化邻接矩阵和边阻抗线性投影，生成紧凑的拓扑感知嵌入，作为策略学习的输入。**(3) 图强化学习控制器**：采用Actor-Critic架构，Actor输出归一化动作后映射为光伏和储能逆变器的无功功率设定值，Critic评估状态值；策略优化使用PPO（近端策略优化）裁剪目标，通过优势估计和值回归损失更新参数。**(4) 闭环训练与在线执行**：训练中控制器与微电网环境迭代交互（每15分钟一个控制步，每幕96步），轨迹存储后用于PPO更新；在线阶段直接使用固定策略进行推理，无需迭代优化。所有仿真基于前推回代法交流潮流求解器，扰动生成包括低、中、高三类强度。

#### 研究结果

**6.1 训练收敛性**：在匹配的4000幕训练预算下，所提方法（GCN-PPO）较MLP-PPO基线更早达到更高奖励水平，且后期波动更小，表明拓扑感知图表示有利于策略优化。

**6.2 标准场景下的性能对比**：在标准五节点测试场景下，所提方法获得最低的AVD（0.0138）、VVR（0.0048）和RPF（0.0008），MVD也最小（0.0190）。其RPU（0.3281）高于下垂控制和MLP-PPO，但伴随着电压质量的显著提升。电压轨迹显示，在终端负荷母线（Bus 5）上，所提方法使电压更接近标称范围；逆变器无功功率轨迹也更平滑。

**6.3 鲁棒性评估**：在低、中、高三种扰动强度下，所提方法始终在AVD、VVR、RPF和MVD上表现最优，且随扰动增强性能退化最慢。在高扰动场景下，其VVR（0.0068）远低于MLP-PPO（0.0243）和下垂控制（0.0532），且逆变器响应更平稳。

**6.4 泛化能力评估**：在未见混合扰动场景（光伏高/负荷中/PCC低）下，所提方法仍保持最佳性能：AVD（0.0147）、VVR（0.0056）、RPF（0.0010）、MVD（0.0204）和恢复时间（7.67步）均为最低。终端母线电压和逆变器无功轨迹进一步验证了其协调控制能力。

**6.5 IEEE 33节点馈线验证**：在修改的IEEE 33节点径向馈线上（PV接于Bus 18，ESS接于Bus 33），所提方法在400幕训练后获得最低AVD（0.01277）、VVR（0.00095）、MVD（0.02418）和恢复时间（5.47步），VVR较MLP-PPO（0.00726）和下垂控制（0.02999）大幅降低。Bus 18电压轨迹显示其违规步数（1步）远少于对照方法。

**6.6 消融分析**：在标准场景下，移除图建模导致AVD、VVR和MVD显著上升（VVR从0.0048升至0.0197），表明图表示是性能增益的主要贡献者；移除平滑项则主要导致RPF大幅升高（从0.0008升至0.0068），表明平滑奖励设计有效抑制控制波动。电压和无功轨迹进一步证实了这两项组件的互补作用。

#### 讨论与结论

讨论指出，拓扑感知图表示使控制器能利用网络依赖信息进行电压调节，而平滑奖励设计改善了控制行为的时间一致性。所提方法在电压质量上优势明显，但伴随更高的无功利用率和计算成本（毫秒级），在IEEE 33节点案例中RPF略高于MLP-PPO但仍远低于下垂控制。局限性包括：五节点系统为主实验环境、仅协调两个逆变器、所有评估基于仿真。未来工作将扩展到更大异构拓扑、引入安全性约束学习，并开展硬件在环验证。

**研究结论翻译**：本文研究了并网微电网中在光伏波动、负荷变化和PCC扰动下的协调电压-无功功率控制问题，提出了一种拓扑感知图强化学习框架。该框架将控制任务建模为约束序贯决策问题，集成拓扑感知图表示与基于PPO的Actor-Critic学习，以闭环方式生成光伏和储能逆变器的连续无功功率指令。结果表明，在标准五节点测试场景下，所提方法获得最佳整体性能，较下垂控制和MLP-PPO基线改善了电压调节质量、减少了电压违规并维持了更平滑的无功功率控制。鲁棒性评估显示其随扰动强度增加退化更平缓，泛化评估表明其在未见混合扰动条件下仍有效。在修改的IEEE 33节点馈线上的额外验证确认了所提图构架也降低了AVD、VVR、MVD和恢复时间，尽管伴随更高的无功利用率和单步计算时间。消融研究表明，拓扑感知图建模是性能增益的主要贡献，而平滑奖励设计在抑制控制波动和改善实际控制行为中发挥重要作用。总体而言，将电气拓扑显式融入强化学习改善了逆变器接口资源在不确定微电网环境中Volt/Var控制的自适应协调能力，并在测试的IEEE 33节点基准设置下保持有效。该框架为可再生能源丰富的并网微电网中不确定性感知的电压-无功功率控制提供了物理启发的基准。未来工作将扩展到更大异构网络拓扑、研究更强的安全感知学习机制，并通过实时仿真或硬件在环验证实践部署。

联系信箱：

粤ICP备09063491号

热点排行