网络化多能源微电网中可再生电力制氨的能量管理：一种多智能体软行为者–评论家方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《International Journal of Hydrogen Energy》：Energy management for renewable power-to-ammonia in networked multi-energy microgrids: A multi-agent Soft Actor–Critic approach

【字体：大中小】 时间：2026年05月30日 来源：International Journal of Hydrogen Energy 8.3

编辑推荐：

　　可再生电力制氨（Renewable power-to-ammonia, RePtA）由于其作为零碳燃料的潜力，已在网络化多能源微电网（multi-energy microgrids, MEMGs）中受到日益广泛的关注。本文提出了一种考虑阶梯式碳交易机制的含Re

可再生电力制氨（Renewable power-to-ammonia, RePtA）由于其作为零碳燃料的潜力，已在网络化多能源微电网（multi-energy microgrids, MEMGs）中受到日益广泛的关注。本文提出了一种考虑阶梯式碳交易机制的含RePtA网络化MEMGs能量管理模型。首先，建立了一个集成可再生氢气/氨气生产、储存与利用的RePtA系统模型，并纳入氨合成过程的热–电–化学（thermo-electro-chemical）合成动力学。其次，将可再生能源波动挑战表述为未知状态转移动态下的马尔可夫决策过程（Markov Decision Process, MDP）。再次，提出了一种新颖的无模型多智能体深度强化学习（Multi-Agent Deep Reinforcement Learning, MADRL）算法，该算法采用集中训练与分散执行（centralized training and decentralized execution, CTDE）架构。该框架利用软行为者–评论家（Soft Actor–Critic, SAC）方法，在随机可再生能源出力条件下求取实时最优控制策略。案例研究验证了所提方法相较于其他先进MADRL算法的优越性。

该文发表于《International Journal of Hydrogen Energy》，聚焦网络化多能源微电网中可再生电力制氨（RePtA）的低碳运行优化问题。研究背景在于，随着分布式能源资源持续渗透，多能源微电网（MEMGs）正逐渐成为电、热、气等多载能系统协同配置的重要载体。与此同时，可再生电力制气技术为富余可再生能源的消纳提供了新的路径，其中氨相较于氢在常态储运方面更具经济性和可行性，因此基于绿色氢和空气分离氮制备零碳氨的RePtA技术受到高度重视。将RePtA进一步与电力、热力和气体基础设施耦合，能够提升系统灵活性、可靠性与稳定性，并降低综合运行成本。

现有研究虽已针对绿氨系统运行框架、风光热耦合系统、以及电–热–氨耦合系统进行了探索，但对于氨合成过程中热–电–化学动态效应的刻画仍不充分，而这一过程会显著影响氨生产效率。另一方面，在“双碳”约束背景下，网络化MEMGs与RePtA系统的运行还需同时应对碳排放约束与碳市场激励。碳排放交易（carbon emission trading, CET）机制，尤其是阶梯式碳交易机制，能够更真实地反映综合能源系统低碳运行的经济环境，并为减排提供市场化激励。然而，RePtA耦合网络化MEMGs的运行受可再生能源波动性和多区域运行不确定性影响显著，使传统依赖精确模型的优化和分布式调度方法面临建模复杂、对未知扰动适应性不足等问题。由于不同区域MEMGs往往由不同主体运营，区域数据隐私和分散决策需求也限制了完全集中式方法的实际适用性。因此，发展兼顾低碳目标、动态不确定性、分散执行与实时优化能力的数据驱动方法具有明确必要性。

针对上述问题，研究人员构建了一个考虑阶梯式碳交易机制的网络化MEMGs能量管理框架，并系统建立了RePtA相关模型。该模型不仅覆盖绿色氢、绿色氨的生产、储存和利用过程，而且进一步描述了氨合成过程中的热–电–化学动态，从而支持通过可再生热能利用实现电解槽温度的优化调节，并提升绿色氨生产效率。在此基础上，研究人员将可再生能源间歇性导致的运行优化问题表述为未知状态转移函数下的马尔可夫决策过程（MDP），随后提出一种无模型、数据驱动的多智能体软行为者–评论家（MASAC）算法。该算法采用集中训练与分散执行（CTDE）架构，在训练阶段利用集中信息提升学习稳定性，在执行阶段仅依赖各局部智能体的本地观测，实现完全分散化控制并增强可扩展性。数值比较结果表明，该方法优于MADDPG、MAPPO、MATD3及完全分散式MASAC（MASAC-D）等代表性多智能体深度强化学习算法，在求解含RePtA的网络化MEMGs能量优化问题方面表现出更强优势。

就研究意义而言，该文的贡献主要体现在三个层面。其一，在系统建模层面，将绿色氢/氨生产、储运和利用过程统一纳入网络化MEMGs框架，并强调氨合成热–电–化学动态这一此前常被忽略但对效率具有关键影响的机理。其二，在运行机制层面，引入阶梯式碳交易机制，使系统调度能够同时兼顾经济性与减排性，增强了模型对现实低碳市场环境的适配性。其三，在方法层面，提出基于SAC框架的CTDE式MASAC算法，为复杂耦合、多区域、强随机、多约束综合能源系统提供了可实时部署的分散智能优化手段。

主要技术方法概括如下：研究人员首先建立网络化MEMGs与RePtA耦合的结构框架及主要设备模型，重点纳入氨合成热–电–化学动态；随后将系统运行优化问题构建为MDP，并定义相应状态、动作与奖励机制；在求解层面，采用基于SAC的多智能体深度强化学习方法，并通过CTDE架构实现训练集中化与执行分散化；最后，在3-MEMG与9-MEMG两类测试场景中，基于Python 3.8与PyTorch平台开展数值仿真，并与多种先进MADRL算法进行对比验证。文中未给出样本队列研究设计，核心验证方式为仿真案例分析。

以下结合文中主体结构对研究结果进行解读。

一、Structural framework and primary equipment modeling
在这一部分，研究人员首先给出了含可再生电力制氨的网络化MEMGs结构框架，并进一步介绍主要设备模型。根据论文摘要与引言可知，该系统框架覆盖可再生能源驱动的氢气/氨气生产、储存和利用过程，并与电、热、气等多种能源基础设施相耦合。该部分的重要结果在于：研究人员并非仅将RePtA视作静态能量转换单元，而是建立了包含热–电–化学合成动态的综合模型，用于描述氨合成过程的动态行为及其对绿氨产出效率的影响。由此得出的关键认识是，若忽视氨合成过程中的热–电–化学效应，则难以准确反映RePtA系统真实运行特性，也不利于实现可再生热能参与下的设备优化调控。

二、Problem formulation
在这一部分，研究人员将整个MEMGs运行问题表述为一个以系统总运行成本最小化为目标的优化问题。目标函数中综合考虑了购售电成本、天然气相关成本、热电联产（CHP）运行成本、电锅炉（EB）与燃气锅炉（GB）运行成本，以及碳成本项，体现出系统经济调度与低碳约束的统一。约束条件则覆盖电功率平衡、热功率平衡、燃气平衡、氨负荷平衡、公用电网交互功率限值、燃气供应限值以及微电网间交换功率关系等。该部分的核心结论是：含RePtA的网络化MEMGs运行优化本质上是一个多能流耦合、多主体协调、受碳交易机制影响的复杂决策问题。通过统一的优化框架，研究人员将电–热–气–氨多维度耦合关系纳入同一决策体系，为后续强化学习求解奠定了形式化基础。

三、Solution approach
在求解方法部分，研究人员提出了所开发的MADRL方法，包含两项关键内容：一是面向网络化MEMGs设计的MDP框架，二是采用CTDE架构的MASAC算法。摘要与引言表明，该方法通过SAC的随机策略与熵正则化机制提升探索能力和鲁棒性，从而适应连续动作空间下的可再生能源波动与系统非平稳性；同时，CTDE设计使训练阶段能够利用更丰富的全局信息，而执行阶段仅依赖局部观测，满足分散运行与数据隐私要求。该部分得出的关键结论是：相较于传统依赖精确模型的优化方法，以及部分集中式或确定性MADRL算法，所提出的无模型数据驱动MASAC更适合求解未知转移动态下的网络化MEMGs实时能量管理问题，并具备更好的扩展性和工程适应性。

四、Numerical studies
在数值研究部分，研究人员设置了3-MEMG系统和9-MEMG系统两种测试场景，以验证所提MASAC方法的有效性与优越性。所有测试在Python 3.8和PyTorch框架下完成。根据摘要、引言和结论部分可知，对比对象包括MADDPG、MAPPO、MATD3以及MASAC-D等当前先进MADRL算法。该部分的主要研究结果是：所提出的CTDE架构MASAC在案例测试中优于其他对比算法，表明其在随机可再生能源出力环境下能够学习到更优的实时控制策略。论文明确指出，这一优势体现了SAC框架与CTDE架构结合在处理网络化MEMGs含RePtA能量优化问题时的有效性。进一步而言，数值比较验证了该方法在协调多微电网、多能源耦合装置及碳成本约束方面具有更优性能。

五、Conclusions
结论部分指出，本研究聚焦于考虑可再生电力制氨系统的耦合MEMGs运行优化问题。研究人员构建了一个综合性的RePtA相关系统模型，其中纳入了氨合成过程的热–电–化学动态效应；在求解层面，采用了具有集中训练和分散执行特征的无模型数据驱动MASAC方法。论文已明确给出的结论包括：各智能体能够独立优化自身策略，从而提升分散控制能力；所建立的CTDE式MASAC算法相较其他先进MADRL算法表现更优；该方法对于求解网络化MEMGs中RePtA耦合场景下的能量优化问题具有明显优势。结合前文贡献表述可以进一步确认，该研究在促进绿色氨高效利用、应对可再生能源波动、兼顾碳交易约束和分布式执行需求方面具有重要应用价值。

综合讨论部分，论文的总体讨论集中于以下几点。首先，RePtA作为零碳燃料路径，在网络化MEMGs中的嵌入不仅拓展了多能源耦合形式，也增强了可再生能源消纳和跨载能储能能力。其次，仅从静态能量转换角度处理氨合成过程难以支撑高保真运行优化，因此热–电–化学动态建模构成本文的重要理论补充。再次，面对可再生能源不确定性、系统非线性以及多主体分散协调难题，强化学习特别是基于SAC的多智能体方法展示出比传统模型依赖型方法更强的适应性。最后，CTDE架构在保证分散执行的同时利用集中训练提升学习质量，为跨区域MEMGs的隐私保护和工程落地提供了兼顾性能与可实施性的技术路线。

研究结论部分可译为：本研究聚焦于考虑可再生电力制氨系统的耦合多能源微电网运行优化问题。研究人员构建了一个综合性的RePtA相关系统模型，该模型纳入了氨合成过程的热–电–化学动态效应。针对所形成的模型，采用了一种具有集中训练与分散执行特征的无模型数据驱动MASAC方法进行求解。各智能体能够独立优化自身策略，从而提升分散化运行能力。数值结果表明，所建立的MASAC算法优于其他先进MADRL算法，凸显了该方法在解决含RePtA的网络化MEMGs能量优化问题中的优势。

联系信箱：

粤ICP备09063491号

热点排行