基于强化学习的可逆水泵水轮机实时控制以实现抽水蓄能电站快速响应

《Energy and AI》：Reinforcement learning-based real-time control of a reversible pump turbine for reduced response time in pumped hydropower

【字体：大中小】 时间：2026年04月25日 来源：Energy and AI 9.6

编辑推荐：

　　本文针对传统控制器在抽水蓄能电站可逆水泵水轮机快速启动中响应慢、适应性差的问题，研究人员利用数字孪生平台，结合近端策略优化（PPO）强化学习（RL）算法，对400 kW实验室规模的机组启动过程进行了控制策略研究。研究表明，RL学得的控制策略可将启动时间缩短30%以上，实现了更快的同步和更早达到目标流量。这项研究为RL在安全关键的能源系统控制中的应用提供了一条从安全离线训练、可解释规则代理验证到仿真-现实迁移的系统性路径，对提升电力系统灵活性与稳定性具有重要意义。

随着可再生能源在电力系统中的占比日益提高，电网的稳定运行对发电和储能资产的运行灵活性与鲁棒、高效的过程控制提出了更高要求。抽水蓄能（Pumped Hydro Energy Storage, PHES）系统通过可逆水泵水轮机在抽水和发电模式间切换，是平衡电力供需的关键角色。然而，传统控制器（如模型预测控制，MPC）在应对非线性、不确定性和复杂约束时存在局限，其计算需求大、模型依赖性强且适应性有限，难以满足电网对快速、动态转换的需求。强化学习（Reinforcement Learning, RL）作为一种通过与环境的直接交互来学习优化策略的数据驱动方法，展现出巨大的潜力，但其在安全关键的能源系统中应用仍面临训练、部署和可信度等挑战。特别是在抽水蓄能领域，RL的应用多集中于水库调度等系统级优化，而对水泵水轮机等单元级别的快速动态过程控制研究几乎空白。

为了解决这一问题，Carlotta Tubeuf、Thomas Bernhardt、Felix Birkelbach、René Hofmann和Anton Maly在《Energy and AI》上发表了一项开创性研究。他们构建了一个基于数字孪生（Digital Twin, DT）的系统性框架，将RL安全地集成到水泵水轮机的泵启动控制中。该研究首次在单元级别实现了RL控制策略的实验验证，并在一个400 kW的实验室规模可逆水泵水轮机测试台上，将学得的RL控制策略与常规控制方法进行了性能对比。研究发现，经过训练的RL策略能够发现高效、反直觉的控制序列，将启动时间缩短超过30%，这为将自适应学习与物理可解释、可验证的运行相结合的下一代智能能源控制指明了方向。

为了开展这项研究，研究人员采用了多项关键技术方法。首先，他们构建了一个由物理实体（实验室水泵水轮机测试台）、虚拟实体（高保真多物理场仿真模型）和服务层（协调数据交换与控制执行）构成的数字孪生平台。其次，采用了基于近端策略优化（Proximal Policy Optimization, PPO）的强化学习算法，在虚拟实体中进行安全的离线训练。第三，设计了一套结构化的部署流程，包括将训练好的神经网络策略提炼成可解释的基于规则的代理控制器进行实验验证，以及最终将训练好的策略以纯推理模式部署到物理系统进行仿真-现实（sim-to-real）转移。整个控制回路的运行基于消息队列遥测传输（MQTT）协议实现低延迟双向通信，并集成了多层安全约束机制。

数字孪生实验平台搭建

研究构建的数字孪生平台是安全训练、验证和部署RL控制器的基础。物理实体是维也纳理工大学实验室的一台400 kW可逆水泵水轮机测试台，配备了全面的传感器监测旋转速度、扭矩、导叶开度、水压、水位和阀门位置等关键参数。虚拟实体则是一个在MATLAB/Simulink中实现的高保真多物理场动态仿真模型，能够准确复现实验室系统的水力和机械行为。两者通过基于MQTT的通信层和服务架构连接，确保了实时数据交换和安全控制。该平台支持一种分阶段的RL部署流程：首先在仿真中离线训练PPO智能体，然后将学得的策略抽象为基于规则的代理控制器以便于在真实系统上进行可解释的验证，最后将训练好的PPO策略以推理模式直接部署到物理设备进行在线控制。

强化学习问题建模

研究将水泵启动过程形式化为一个马尔可夫决策过程。智能体的观察空间包括12个连续和离散的状态变量，如球阀位置、空气阀位置、导叶开度、转速、扭矩、流量、压力、空气体积流量和水位传感器状态等。动作空间是离散的，由球阀开/关、空气阀开/关、从7个预设值中选择导叶开度、以及控制转速是否按照预设加速曲线增加这4个命令组合而成，共56种可能动作。为了确保安全，研究引入了多项约束，例如转速未达到同步转速的50%前不能开启球阀，球阀开启时空气阀必须关闭等。奖励函数则精心设计，结合了性能奖励（如机会损失成本、同步能耗成本、磨损成本、过量空气消耗惩罚）和辅助奖励塑形项（如任务完成奖励、同步奖励、临界区域惩罚、超时惩罚），以引导智能体高效、安全地完成启动任务。

策略转移实验结果

将训练好的RL策略抽象为基于规则的控制器并在测试台上进行实验验证，结果表明其性能显著优于常规启动程序。常规启动程序采用严格的串行操作序列：先吹扫转轮中的水，再加速至同步转速，同步后才开启球阀和导叶。而RL学得的策略则采用了更并行的操作：在启动初期即同时开始吹扫和加速；一旦转速超过同步转速的50%，便提前开启球阀；当上水位传感器检测到转轮被吹干时，即提前开启导叶并关闭空气阀。这种策略调整使得系统达到同步转速的时间提前了约30秒，总启动完成时间（达到并维持目标流量15秒）从常规策略的约92秒缩短至约62秒，缩短了超过30%。实验证明，更早的球阀和导叶开启并未导致不稳定，反而通过更早建立水力流道显著加快了启动过程。

仿真-现实迁移结果

研究进一步将训练好的PPO策略以纯推理模式直接部署到物理测试台进行在线控制。结果表明，智能体能够成功地将机组加速至同步转速，并且球阀开启时机与规则代理策略相当。然而，在线RL控制器在导叶控制上出现了不稳定振荡，未能稳定在仿真中学到的最佳开度，导致最终未能达到目标流量，启动任务未完成。此外，在线RL控制的吹扫行为也与仿真有所不同，出现了两次短时吹扫。这揭示了仿真模型与真实系统在动态、传感器噪声和执行延迟等方面存在的差异，是仿真-现实迁移面临的主要挑战。

研究结论与讨论

本研究成功地在单元级别实验验证了RL用于抽水蓄能过程控制的可行性。通过数字孪生平台，研究建立了一套从安全离线仿真训练、到可解释规则代理验证、再到仿真-现实迁移的系统性方法论。实验证明，RL能够发现高效且反常规（非直觉）的控制策略，通过并行化和重新排序控制动作，将水泵启动时间缩短了30%以上，实现了更快的电网同步和能量注入。这凸显了RL在管理现代能源系统日益增长的复杂性和不确定性方面的潜力。

然而，研究也揭示了仿真-现实迁移的关键限制。由于模型误差、未建模的动态以及传感和执行延迟，直接在物理系统上部署仿真训练的策略可能导致性能下降，如本研究中观察到的导叶控制不稳定。这表明，未来研究需要致力于提高仿真模型的保真度，并开发更鲁棒的迁移学习或在线适应技术。

总之，这项工作为RL在安全关键的能源控制中的应用铺平了道路。它架起了自适应学习与物理可解释、可验证操作之间的桥梁。所提出的数字孪生框架和分阶段部署流程，为在工业环境中安全、可信地集成先进学习算法提供了蓝本。未来的研究方向可以包括将RL应用于更广泛的运行工况（如涡轮启动、模式转换）、探索多目标优化以及开发能够在线适应设备老化和环境变化的终身学习策略。

热点排行