基于GRU预测的自适应模糊形状深度强化学习在并网光伏-燃料电池-蓄电池系统中的最优能源管理应用

《Sustainable Computing: Informatics and Systems》：Adaptive Fuzzy-Shaped Deep Reinforcement Learning with GRU-Based Forecasting for Optimal Energy Management in Grid-Connected Photovoltaic–Fuel Cell–Battery Systems

【字体：大中小】 时间：2026年04月25日 来源：Sustainable Computing: Informatics and Systems 3.8

编辑推荐：

　　崔攸洵 | Shubhashish Bhakta 韩国首尔世宗大学能源资源与地理系统工程系，邮编05006 **摘要** 随着电网吸收更多可变可再生能源，与电网交互的混合能源系统必须在严格的物理约束下提供电能质量支持和成本效益。本研究为一种并网的光伏-燃料电池-蓄电

　　崔攸洵 | Shubhashish Bhakta
韩国首尔世宗大学能源资源与地理系统工程系，邮编05006

**摘要**
随着电网吸收更多可变可再生能源，与电网交互的混合能源系统必须在严格的物理约束下提供电能质量支持和成本效益。本研究为一种并网的光伏-燃料电池-蓄电池微电网开发了一个基于预测-强化学习的能源管理系统。该系统通过门控循环单元向深度确定性策略梯度控制器提供短期光伏发电预测，后者输出蓄电池功率、燃料电池功率和电网交换的连续设定值。系统通过封闭形式的预测来确保蓄电池充电状态（SoC）和电网交换限制的满足，并通过自适应模糊奖励 shaping 来修改用于评判的目标奖励。在典型运行日，该系统将净运营成本从166.76美元降低到113.37美元，电网交换方差从2276.06千瓦2降低到1267.98千瓦2，同时光伏利用率保持在100%，氢气使用量从56.69公斤减少到28.51公斤。在多日评估中，电网平均方差从1308.77 ± 463.83千瓦2降低到627.31 ± 433.15千瓦2，净运营成本平均从272.62 ± 134.52美元/天降低到264.05 ± 133.71美元/天，而光伏利用率仍保持为100.00 ± 0.00%。所有日子里，蓄电池充电状态违规情况均为0.00 ± 0.00%，记录的平均绝对无松弛交流母线残差可以忽略不计。极端情景压力测试（最不利供需差、电网中断、低SoC启动）确保了系统的可行性，没有出现SoC或电网违规情况，也未出现未供电的情况；而以过剩为主的情景则通过量化拒绝能量来处理。预测扰动测试将多时段预测的均方根误差从22.15 ± 11.89千瓦增加到38.95 ± 8.15千瓦，但仅使净运营成本从256.87 ± 118.63美元/天增加到258.69 ± 118.65美元/天，同时维持了0.00%的SoC违规率和0.00千瓦时的未供电能量。

**引言**
面对日益严重的气候变化和化石燃料储备的枯竭，向可持续能源未来的转型迫在眉睫。此外，可再生能源（RE）越来越多地集成到现代电网中，带来了与间歇性、不确定性和能源可靠性相关的新挑战。特别是光伏（PV）系统已成为这一转型的基础，提供了清洁、丰富且成本竞争力越来越强的电力。尽管光伏被认为清洁且资源丰富，但其输出受时间和环境影响较大，需要先进的能源管理策略来确保系统的可靠高效运行。根据最新预测，到2024年底，全球累计安装的光伏容量至少将达到2156.5吉瓦（GW），还有可能增加90吉瓦，凸显了全球太阳能基础设施的快速扩张[1]。预计到2025年，新的光伏装机容量将达到655吉瓦，尽管较前几年略有放缓，但这得益于政策支持、技术进步和成本下降[2]。中国在这方面处于领先地位，截至2024年已安装887,930兆瓦（MW），远超其他国家，显示出全球采纳速度的不均衡但加速的趋势[3]。仅在美国，2025年第一季度太阳能行业新增装机容量达到10.8吉瓦直流（GWdc），尽管这标志着市场的成熟和供应链的调整[4]。

尽管取得了这些显著成果，但光伏集成到能源系统中仍面临诸多挑战，主要是由于其间歇性和不可预测性。光伏输出受太阳辐射、温度、云层覆盖和一天中不同时间的影响而波动，导致发电与需求不匹配[5]。这种变异性可能导致电网不稳定[6]、电压波动[7]以及对备用电源的依赖增加[8]，最终导致能源减产和运营成本上升[9]。为缓解这些问题，结合光伏与燃料电池（FC）和蓄电池等互补技术的混合能源系统变得越来越重要[10]、[11]、[12]。燃料电池可提供稳定高效的动力，而蓄电池则可用于调峰和削峰。这些组件共同构成了能够在并网或独立模式下运行的弹性微电网，增强了能源安全并减少了碳排放[10]。

然而，混合光伏-燃料电池-蓄电池系统的管理面临诸多挑战。技术上，燃料电池的低功率密度和缓慢的动态响应限制了它们处理快速负荷变化的能力，需要与蓄电池仔细协调[13]。蓄电池因频繁充放电而会退化，将其充电状态（SoC）保持在安全范围（通常为20-80%）内对延长其使用寿命至关重要[14]。电网交互增加了复杂性，因为过度输出或输入可能对基础设施造成压力[15]，而为燃料电池生产/储存氢气还会引入效率损失和安全问题[16]。优化技术的可扩展性、对参数变化的敏感性以及如何纳入天气或需求预测等不确定性因素，进一步复杂化了系统设计。经济上，燃料电池和蓄电池的高前期成本以及可变电价要求制定策略以减少退化并降低成本。此外，结合光伏与可调度技术（如燃料电池）的混合可再生能源（HRES）系统以及用于短期缓冲的蓄电池储能系统，已成为解决这些问题的强大方案。在并网设置中，HRESs可实现灵活的电力供应、削峰和辅助服务（如频率调节），同时尽量减少能源减产和化石燃料依赖[17]、[18]。此外，在HRESs中优化能源调度、确定蓄电池充放电、燃料电池输出和电网交换的实时分配需要复杂的能源管理策略（EMS），这些策略能够处理随机输入、多目标权衡以及物理约束（如蓄电池SoC限制和电网爬坡率[19]、[20]。

传统的EMS方法，包括基于规则的控制器、启发式优化（如遗传算法）和模型预测控制已被广泛使用；然而，它们在动态环境中往往表现不佳。基于规则的方法依赖预定义的阈值，缺乏对未预见变化的适应性，而模型预测控制则需要准确的系统模型和预测，这会增加计算负担并对建模错误敏感。强化学习（RL）作为机器学习的一个分支，使代理能够通过环境交互和奖励反馈学习最优策略，已成为HRES应用中适应性强的替代方案。例如，深度强化学习（DRL）及其变体（如深度确定性策略梯度DDPG）已成功应用于车辆中的混合燃料电池系统，通过智能电力分配降低了燃料消耗并延长了蓄电池寿命[21]。在微电网背景下，基于RL的EMS在光伏-风能-蓄电池混合系统中展示了更高的可靠性，结合了最大功率点跟踪和负载预测以降低运营成本并提高能源自给自足能力[22]。此外，还提出了用于HRES实时能源调度的混合动作DRL算法，结合离散和连续动作来处理多种组件（如可再生能源和储能[23]。另一个例子是用于可再生能源集成电力系统中负载频率控制的DRL，其中深度Q网络在高光伏渗透率下稳定了频率偏差[24]。

最近的微电网EMS研究还报道了超越早期DRL方法的RL控制器，如Q网络（DQN）[25]和DDPG[26]，以及更广泛的RL文献中提出的用于提高连续控制环境下训练稳定性和鲁棒性的策略梯度算法（如PPO、SAC和TD3）[27]、[28]、[29]。策略梯度方法（如近端策略优化PPO）[27]已被应用于微电网EMS的设计。例如，Lee等人使用PPO优化了微电网EMS架构，并报告了与动态规划和基于DDQN的运行相比的性能提升[30]。最大熵离线策略方法（如软演员-评论家SAC）[28]也已被应用于不确定性下的微电网操作，包括多时间尺度协调的微电网控制[31]。对于连续调度，设计用于改进DDPG的确定性演员-评论家变体（特别是双延迟DDPG TD3）[29]已被研究用于微电网能源管理[32]、[33]。多智能体DRL也被探索用于多个分布式资源和微电网之间的协调决策[34]、[35]。分布式RL也被提出用于学习回报分布而不仅仅是期望回报[36]。在本研究中，选择DDPG作为代表性的确定性连续动作演员-评论家框架，以隔离所提出的自适应模糊奖励 shaping 和可行性预测在固定RL基础下的增量贡献。

关于HRES能源管理的文献发展迅速，这是由于需要应对光伏发电的间歇性问题、集成蓄电池和燃料电池等储能手段以及确保电网稳定性的需求。早期研究侧重于基于规则和优化技术；然而，最近的研究强调了机器学习（特别是RL）在不确定性下的适应性控制。例如，Phan和Lai [37] 使用RL进行最大功率点跟踪和能源管理，在隔离的微电网中通过仿真验证展示了改进的转换效率和系统可靠性。Dolatabadi等人[38] 开发了一种无模型的DRL框架，用于光伏集成能源枢纽的能源管理，在不确定性下通过数据驱动技术（如DDPG和卷积神经网络双向长短期记忆）优化调度。Alfaverh等人[39] 提出了一种基于RL和模糊推理的家庭能源管理需求响应策略，结合光伏和蓄电池系统以降低成本并提高自给自足能力。Al-Othman等人[40] 开发了带有燃料电池的HRES的人工智能和数值模型，突出了太阳光伏集成方面的进步以及在技术、经济和环境维度上的优化前景。Ali和Ali [41] 提出了一种基于模糊逻辑的太阳能系统能源管理策略，通过模拟光伏蓄电池设置实现了高效的能源流控制和成本降低。Liu等人[42] 引入了一种在线学习的区间类型3模糊控制系统，用于在变化条件下具有蓄电池和光伏组件的混合系统中实现稳健的电力处理。Alzahmi [43] 使用深度学习进行智能结构的能源建模，专注于分布式系统中的成本效益高的可再生能源集成和性能提升。Ghasemi等人[44] 结合RL和时间序列预测来应对风能和分散光伏源的不确定性，优化了智能电网中的能源管理。Pravin等人[45] 设计了一种基于学习的调度方法，用于工业HRESs，通过最优电力调度将运营成本降低了32.8%，碳排放减少了28.5%。Yang等人[46] 开发了一种结合深度学习和RL的框架，用于光伏储能系统的功率预测和优化，提高了数据集的准确性。Shibl等人[47] 创建了一种智能的两阶段能源调度管理系统，用于住宅光伏和储能，利用机器学习提高了效率和解决了集成挑战。Khan等人[48] 应用Q学习进行电网集成光伏和储能系统的功率流管理，实现了有效的需求侧平衡和韧性。Almughram等人[49] 提出了一种RL方法，用于集成家庭能源管理与车载单元，实现了微电网中的成本效益高且环境友好的能源优化。Ghasemi等人[50] 使用多智能体RL和不完美的状态信息来应对智能电网决策网络中的不确定性，专注于分布式光伏和风能的稳健市场运营。Real等人[51] 使用DRL和负载预测优化了光伏-蓄电池系统，通过数据驱动的调度降低了35%的成本。Baberwal等人[52] 应用Q学习进行住宅光伏蓄电池系统的能源管理，实现了高精度的功率方差最小化和系统可靠性。Raman等人[53] 提出了一种基于RL的家庭能源管理系统，用于在停电期间协调光伏、蓄电池和电网资源。Zhang等人[54] 使用DRL设计了风能-光伏-水力储能混合系统的长期和短期协调调度，增强了多时间尺度的可再生能源集成优化。Anthony等人[55] 创建了一种用于需求侧管理的自主模糊控制器，最大化了自给自足能力并最小化了电网依赖。Uddin和Tabrizi [56] 开发了一种无模型的多智能体RL方法，用于微电网中的稳健能源管理，实现了光伏和蓄电池的最佳协调和环境友好结果。Felicetti等人[57] 结合整数规划和RL进行家庭能源管理中的削峰和自给最大化，专注于光伏-蓄电池优化。Alfaverh等人[58] 使用监督学习和无监督学习优化了家庭能源流和蓄电池管理，提高了光伏预测和控制的准确性。Paesschesoone等人[59] 通过切换RL控制提高了光伏-蓄电池系统的能源灵活性，实现了成本效益高的需求响应。Sabzalian等人[60]开发了一种新的沉浸式和不变性控制方法，该方法采用稳定的深度学习模糊技术进行功率/电压控制，将模糊逻辑与强化学习（RL）结合，以提高可再生能源（RE）应用中非线性系统的鲁棒性。Li等人[61]提出了一种适用于燃料电池（FC）混合动力电动汽车的自适应分层能源管理系统，该系统将等效消耗最小化策略与DDPG控制相结合。为了加速学习收敛，他们引入了一种基于卷积神经网络-门控循环单元（GRU）的预测模型，并加入了注意力机制。在与动态规划、独立DDPG、自适应等效消耗最小化策略的仿真基准测试中，所提出的方法达到了动态规划燃油效率的94.8%。硬件在环（Hardware-in-the-loop）测试进一步将等效氢消耗分别降低了17.4%、3.6%和12.6%。Li等人[62]研究了城市轨道交通中的车载能源存储系统控制问题，其中由于牵引电源系统的非线性、时变性和部分可观测性，回收再生制动能量变得复杂。为了解决在信息不完全可观测情况下传统深度RL面临的奖励设计和探索难题，他们提出了基于模糊逻辑的奖励塑造方法，以利用有限的可测量信号来提高学习效率和可解释性。在真实世界的铁路线案例研究中显示，模糊引导的方法使用深度DQN代理将制动阻力能量损失降低了16%，使用DDPG代理则降低了31%，同时减轻了牵引网络电压波动和变电站峰值功率。He等人[63]将短期电力负荷预测重新定义为一种决策任务，并提出了一个包含注意力-GRU-DDPG的框架，以更好地捕捉传统预测器经常忽略的非线性关系和时间依赖性。他们的模型结合了注意力机制来优先考虑信息丰富的输入特征，门控循环单元网络来学习序列负荷动态，以及深度强化学习来 adaptive 地优化预测策略。通过使用多变量输入（历史负荷、天气变量和电力价格），在澳大利亚电力市场数据上的实验表明，该模型在24-168小时提前预测方面的准确性优于十种基准方法。然而，在将自适应模糊塑造与GRU预测和DDPG结合用于光伏-燃料电池（PV-FC）电池系统方面仍然存在差距，特别是在多个目标下协调电池电量（SoC）与电网稳定性方面。静态模糊规则忽略了数据驱动的阈值，而且很少有研究考虑对惩罚尺度或实时预测的敏感性。混合RL-模糊框架在可扩展的能源管理系统（EMS）中具有潜力，本研究通过在系统顾问模型（SAM）数据[64]上评估的自适应系统来解决这些问题。

尽管取得了显著进展，但用于氢能存储（HRES）的RL框架仍然面临重大挑战，例如在较长时间范围内（如每日调度周期）奖励稀疏、探索过程中的安全违规（例如电池过放电），以及需要协调相互竞争的目标，如电网稳定性、FC效率和光伏利用。为了应对这些问题，已经提出了将领域知识融入基础奖励的奖励塑造方法。例如，基于潜力的塑造方法利用专家先验来加速能源系统中的收敛[65]。模糊逻辑以其语言规则和隶属函数来管理不确定性和非线性，是奖励塑造的自然延伸。先前的研究已将模糊推理集成到机器人学中的RL奖励中，以减轻稀疏性并管理任务复杂性[66]，并且已在能源领域探索了分数阶模糊滑模控制与RL的结合，以增强非线性系统的鲁棒性[67]。然而，结合数据驱动阈值（历史百分位数）的自适应模糊塑造，明确协调电池电量稳定性与电网互动的方法在并网PV/FC/电池EMS中仍未得到充分探索。据我们所知，本研究提出了以下新颖发现：

1. 该场景冻结的、基于百分位数的自适应模糊塑造方法同时惩罚电池电量（SoC）和电网行为。“正常”电池电量范围是根据修剪的历史百分位数确定的，大约为第40到60百分位数，而电网稳定性范围是根据最近的电网坡度统计数据推断的，大约为第25到75百分位数。每个场景内的阈值被固定，以稳定学习过程。
2. 采用了考虑进口限制的、通过构造确保安全的预测方法。除了考虑电池电量饱和度和方向依赖性效率外，当进口限制导致未满足负荷时，预测方法还会限制充电。此外，它还实施了基于幅度的电网平滑处理，确保代理仅从物理上可行的轨迹中学习。
3. 所提出的框架包含了以成本为导向的、考虑安全性的奖励，并明确考虑了氢气利用情况。基础项评估了出口/进口价格、通过FC效率的氢气利用、较低的加热值（LHV）和电池退化。随后，它扣除了自适应电池电量电网惩罚、与坡度相关的惩罚、FC带宽限制、未满足负荷惩罚以及旨在阻止显著可行性降低的预测惩罚。这种方法通过每步总线能量平衡验证和残差诊断得到了补充。
4. 考虑预测的单代理EMS包含了多步GRU光伏预测。这种预测器通过贝叶斯优化与提前停止机制选择，并直接将预测结果整合到RL状态中。它利用24小时的标准化光伏数据和正弦h编码以及12小时的预测范围，在不确定条件下促进前瞻性调度[68]。
5. 在相同的DDPG设置下，对模糊ON与模糊OFF配置进行了全面的配对评估。进一步通过分析惩罚尺度的敏感性和对光伏利用与电网方差之间的帕累托分析来增强这一评估。这些分析与新兴的针对可再生能源到X应用的电网惩罚DRL方法[69]、[70]一致。
以往关于预测辅助微电网EMS的研究通常使用预测的可再生能源发电和负荷作为日前或滚动时域优化/模型预测控制的输入。在这些方法中，预测会定期更新，并且只执行最直接的控制动作，而优化器则在操作约束下确保可行性[71]。基于DRL的更多最新EMS公式也将预测信息整合到马尔可夫决策过程状态中。例如，可以通过将下一阶段的负荷和可再生能源发电的预测变化增加到状态中来实现这一点，从而促进预期调度决策[72]。在这项研究中，GRU预测器提供了具有12小时预测范围的多步光伏预测向量，这在每次调度步骤中都被明确包含在RL观察中。这种包含使得学习到的连续控制策略能够根据近期的光伏轨迹做出决策。自适应模糊奖励塑造进一步使用滚动操作窗口细化了惩罚阈值，然后为每个场景固定这些阈值以稳定学习。最后，通过显式的预测/饱和层保持操作可行性，该层将原始动作命令映射到电池电量可行的功率和有界的电网交换范围内，与基于预测的可行性层保持一致。在我们的评估中，任何剩余不平衡都通过诸如限制、未满足的能量和能量平衡残差等指标进行了明确量化。

贡献：
1. 提出了一种考虑预测的单代理DDPG EMS，其中多步GRU光伏预测器被集成到控制循环中。这种集成确保了在用于调度的观察中包含预测结果。
2. 采用了一种自适应的、场景冻结的模糊塑造器，该塑造器结合了来自数据驱动百分位数（电池电量：大约40-60%；电网坡度：大约25-75%）的电池电量和电网共惩罚。
3. 使用高斯隶属函数结合三角形或梯形替代方案的光滑且可微分的惩罚信号，以及一个3×3规则权重矩阵{电池电量：低/正常/高} × {电网：负/稳定/正}，适用于基于梯度的学习。
4. 奖励系统以成本为导向，并考虑了安全性，明确考虑了氢气质量和效率。这包括电池吞吐量的成本，并对偏离电池电量、电网坡度、FC带宽限制、未满足负荷和预测幅度的行为施加惩罚。
5. 设计了一个具有内在安全特性的环境，通过在充电过程中实施电池电量饱和度意识，有效保护了在进口限制下的负荷。此外，它还对电网命令进行了动作平滑处理，从而将探索限制在可行的轨迹上。
6. 该研究采用了一种配对的光模糊ON与模糊OFF评估协议，使用相同的训练预算和种子。它报告了光伏利用率、电网功率方差、限制（针对光伏和总限制）、电池电量违规、电池循环（以等效全周期（EFC）测量）、氢气使用和成本、出口和进口指标、能量平衡误差、净运营成本以及学习曲线的行为。
7. 通过敏感性和帕累托分析，使用均匀惩罚尺度扫描量化了塑造效果，并检查了光伏利用率与电网方差之间的权衡。这种方法阐明了自适应模糊设计的操作含义。

研究目标：
1. 开发并验证一种单代理DDPG EMS，该系统结合了GRU多步光伏预测和自适应模糊奖励塑造，用于并网PV-FC-电池系统，并利用每小时系统顾问模型（SAM）数据。
2. 对使用模糊逻辑的EMS与不使用模糊逻辑的基线进行了比较分析，评估指标包括光伏利用率、电网方差、氢气消耗、电池循环、电池电量违规、净运营成本（包括电网经济性、电池退化代理和氢气成本）、限制、出口/进口活动和能量平衡误差。
3. 通过惩罚尺度敏感性分析、比较模拟、学习曲线、电池电量和动作轨迹分析、能量流可视化以及平衡光伏利用率与电网稳定性的帕累托分析，证明了自适应模糊塑造的有效性。

本文的其余部分组织如下：第2节详细介绍了方法论，包括系统建模、使用贝叶斯优化的GRU预测、RL环境（包括观察、动作和奖励）、模糊塑造规则以及训练/模拟协议。第3节展示了结果和讨论，涵盖了指标、图表（如学习曲线、电池电量轨迹和能量流可视化）以及敏感性分析。第4节总结了本文的启示、局限性和未来研究的方向，包括多代理扩展和实际部署。

方法论
本节详细介绍了开发和评估用于并网PV-FC-电池微电网的单代理强化学习（SARL）EMS的方法论框架。该流程结合了用于多步光伏预测的GRU预测器、用于实时调度的DDPG代理以及结合动作平滑和物理感知可行性预测的自适应模糊奖励塑造（保护负荷和剩余吸收规则）。所有实验都在MATLAB R2025a中使用深度学习工具箱（GRU）执行。

结果和讨论
所有实验都在相同的数据集和约束条件下比较了两种其他方面相同的控制器：一种模糊ON代理（自适应模糊奖励塑造+动作平滑）和一种模糊OFF基线（保留动作平滑，去除模糊术语）。两种代理都使用了相同的GRU光伏预测器，并通过强制性可行性预测进行操作，该预测确保了交流母线平衡、电池电量范围限制以及电网进口/出口限制。经济参数在代码中是固定的，因此是恒定的。

结论
本研究开发了一种用于并网PV-FC-电池微电网的集成预测-强化学习能源管理系统。该系统旨在在遵守明确物理约束的同时，实现运营成本的降低和电网交换的平滑。基于GRU的短期限光伏预测器与确定性演员-评论家控制器（深度确定性策略梯度）相结合。在每个调度步骤都确保了可行性。

局限性和未来工作
本研究没有考虑与FC启动/停止操作相关的成本、最小上/下时间、电价多样性或明确的电池老化成本。因此，电池使用量是使用基于吞吐量的EFC来表征的，同时考虑了电池电量变化和约束统计量，如电池电量标准差和违规率。这种方法优于考虑放电深度和C率效应的机械老化模型。未来的研究应包括这些因素。

资金信息
本项工作得到了韩国国家研究基金会（NRF）的资助，该基金由韩国政府（MSIT）提供（编号RS-2023-00280326；2710083019）。

作者贡献声明
Shubhashish Bhakta：撰写 - 审稿与编辑、撰写 - 原稿、可视化、验证、软件、方法论、调查、形式分析、概念化。
Yosoon Choi：撰写 - 审稿与编辑、撰写 - 原稿、监督、资源、项目管理、方法论、资金获取、数据管理、概念化。

利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系，这些关系可能会影响本文报道的工作。

热点排行