基于改进深度强化学习算法的燃料电池混合动力汽车多智能体切换能量管理策略

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Multi-agent switching energy management strategy for fuel cell hybrid vehicles using an enhanced deep reinforcement learning algorithm

【字体：大中小】 时间：2026年06月18日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　杜阳|刘旭干|廖月峰|李敏CE，郑州大学电气与信息工程学院，中国河南省郑州市450001 摘要燃料电池混合动力电动汽车需要智能的能量管理策略，以适应复杂的驾驶条件，同时优化效率与耐用性。本文提出了一种创新的能量管理策略，该策略基于改进的双延迟深度确定性策略梯度框架，并结合多智

　　杜阳|刘旭干|廖月峰|李敏CE，郑州大学电气与信息工程学院，中国河南省郑州市450001

摘要
燃料电池混合动力电动汽车需要智能的能量管理策略，以适应复杂的驾驶条件，同时优化效率与耐用性。本文提出了一种创新的能量管理策略，该策略基于改进的双延迟深度确定性策略梯度框架，并结合多智能体切换机制。通过随机森林构建驾驶条件分类器，用于识别典型驾驶模式，从而实现基于情境的控制策略选择。每种驾驶模式由专门的TD3智能体处理，再通过高斯噪声优化和多目标奖励函数进行优化，以提高收敛性和策略稳定性。所设计的奖励函数能够有效平衡氢气消耗与燃料电池退化之间的矛盾，确保策略的安全性。多智能体架构使得训练好的智能体之间可以动态且灵活地切换，从而在不同场景下实现最优的功率分配。仿真结果表明，所提出的策略显著降低了氢气消耗，提升了电池充电状态的可持续性，同时减缓了燃料电池性能的下降。与一些现有的基准能量管理策略相比，该方法的平均等效氢气消耗降低了1.37%，燃料电池的退化率降低了2.38%。这一对比表明，该策略在燃油经济性和系统耐用性方面都有显著提升，为下一代燃料电池混合动力电动汽车提供了可行的解决方案。

引言
随着全球能源结构的转型以及碳中和目标的追求，燃料电池混合动力电动汽车作为一种具有前景的零排放交通解决方案，受到了学术界和工业界的广泛关注（Oladosu等人，2024年）。与传统内燃机车辆相比，燃料电池混合动力电动汽车具有能量密度更高、排放更低以及加注时间更短等优点（Li等人，2025a年）。然而，由于燃料电池本身的动态响应速度较慢，难以满足频繁启停和快速加速等复杂工作条件下的需求。此外，制动过程中的能量回收效率也较为有限。为了解决这些问题，将燃料电池与高性能动力电池（如锂离子电池）集成到混合动力系统中，已成为提升燃料电池混合动力电动汽车动态性能和能源效率的有效途径（Jia等人，2024a年）。

然而，燃料电池混合动力电动汽车中多种能源源的协同控制带来了新的挑战：如何在不影响整车驾驶需求的前提下，最优地分配燃料电池和电池的输出功率，从而在燃油经济性、燃料电池寿命以及系统运行稳定性之间取得平衡。这一问题的核心在于能量管理策略的设计与优化（Tian等人，2024年）。一个有效的能量管理策略必须能够根据实时及预测的车辆状态动态分配各能源源的功率，同时还需具备出色的实时性能、鲁棒性以及对不同环境条件的适应性（Wang等人，2024a年）。在此背景下，基于人工智能的方法，尤其是那些运用强化学习和多智能体系统的方法，为开发能够在复杂且不确定的驾驶条件下优化系统性能的自适应和预测型能量管理策略提供了新的可能。

在现有研究中，能量管理策略主要包括基于规则的方法、基于优化的方法以及基于学习的方法。基于规则的方法，如有限状态机（Deng等人，2025年）、模糊控制（Mazouzi等人，2024年）、小波分解（Jiang等人，2024年）等，具有实现简单、计算效率高的特点，是工程实践中广泛应用的一类经典算法。但由于这类方法高度依赖专家经验和规则库，对于未知环境或突发工作条件的适应性较差，难以实现最佳性能。相比之下，基于优化的方法能够在全局或瞬时层面优化系统的能耗指标。动态规划作为全局优化方法的代表，被广泛用于确定基准能耗。Fares等人（2015年）提出了一种加权改进的动态规划算法，用于燃料电池混合动力电动汽车的能量管理，该算法考虑了生命周期成本、组件限制以及电池的充电状态。Meng等人（2021年）则提出了多维度动态规划方法，用于燃料电池有轨电车的能量管理，以提高计算效率。然而，基于动态规划的方法依赖于完整的驾驶条件先验信息，这限制了其实时性能。庞特里亚金最小原理是一种近似最优的能量管理策略，它能够在近似动态规划结果的同时提高计算效率，并且经过一定改进后可以在线应用。例如，Li等人（2019年）和Huangfu等人（2022年）都设计了自适应共态更新策略，使得庞特里亚金最小原理算法能够实时计算燃料电池与锂离子电池之间的功率分配比例。尽管庞特里亚金最小原理算法的计算量小于动态规划，但它仍然需要在线解决优化问题，这要求较高的处理器性能，且可能难以适应实际交通状况的随机性。

为了解决上述问题，一些实时优化算法被提出用于能量的在线计算。其中，等效消耗最小化策略通过等效因子将电能消耗转化为等效燃料消耗，从而实现了与庞特里亚金最小原理相当的实时性能，同时避免了迭代优化过程，便于在线调整（Li等人，2022a年）。Sahwal等人（2024年）开发了一种改进的等效消耗最小化策略，用于处理燃料电池混合动力电动汽车中存在的非线性问题和复杂性。模型预测控制是另一种常用的在线能量管理方法。在Jia等人（2022年）的研究中，基于线性参数变化模型设计了一种自适应模型预测控制策略，用于实时优化燃料电池和电池之间的负载电流分配。Ma等人（2022年）进一步扩展了这一概念，将速度预测和驾驶模式识别纳入多目标模型预测控制框架中。Li等人（2020年）提出了一种分层模型预测控制方法，其中经济层负责考虑成本，而控制层则用于控制系统按照预定轨迹运行。尽管模型预测控制具有出色的实时求解能力，但它通常需要高精度的模型，并且涉及在线解决约束优化问题，这对硬件资源提出了较高要求（Tian等人，2025年）。

近年来，基于学习的能量管理策略因其在平衡系统性能和实时性能方面的优势而得到了快速发展（Pan等人，2026年）。这类能量管理策略主要包括神经网络（Li等人，2025b年）、回归学习、强化学习等多种方法。例如，Min等人（2022年）提出了一种基于神经网络的能量管理策略，通过遗传算法对其进行优化，以减少启停对车辆性能的影响。Fu等人（2024年）设计了一种改进的随机森林模型，用于学习离线版本的庞特里亚金最小原理能量管理策略，仿真结果表明，该随机森林模型能够达到与庞特里亚金最小原理类似的性能，并且可以用于实时应用。Li等人（2023年）则将多种机器学习模型与驾驶模式分类器相结合，构建了用于在线能量管理的回归学习模型。强化学习是一种新兴的无监督学习算法，由于其良好的环境适应能力和鲁棒性优势，近年来已被广泛应用于混合动力系统的能量管理中（Li等人，2022b年）。传统的强化学习算法，如Q学习（Yang等人，2022年）、Dyna算法（Liu等人，2024年）等，对环境变量的维度较为敏感，这限制了它们的控制精度，还可能导致维度爆炸等问题。深度强化学习由于其强大的适应能力和在高维状态空间中的在线决策能力，逐渐成为解决复杂能量管理问题的有效方法，大大提升了能量管理的智能化水平（Li等人，2026a年）。Wang等人（2024b年）使用深度Q网络控制燃料电池和电池之间的功率分配。Huang等人（2023年）应用深度确定性策略梯度算法来实现能源源之间的最优功率分配。Li等人（2025c年）则将近端策略优化与动态规划知识以及并行计算相结合，用于燃料电池混合动力电动汽车的能量管理。Sun等人（2025年）采用了双层深度确定性策略梯度算法，用于考虑燃料电池和电池使用寿命的燃料电池混合动力电动汽车能量管理。Jia等人（2024b年）将深度强化学习与模型预测控制相结合，充分利用控制理论和机器学习的优势，为燃料电池混合动力电动汽车设计了具有健康状态感知功能的能量管理策略。Yang等人（2026年）提出了一种基于TD3算法的能量管理策略，并结合预训练的智能体网络，以减少训练时间并提升系统性能指标。虽然最近的研究探索了元强化学习（Li和Zhou，2025年）以及分层深度强化学习（Liu等人，2026年），以提高能量管理策略对不同驾驶条件的适应性，但这些方法通常会增加训练的复杂性，需要仔细调整超参数，而且在在线适应过程中可能会出现不稳定现象。

现有研究表明，基于深度强化学习的能量管理策略能够有效调节混合动力系统在不同负载条件下的功率流动。然而，大多数研究都是训练一个统一的智能体，然后将其应用于所有驾驶场景的实时功率分配。尽管这种单一智能体架构能够学习通用策略，但很难针对现实世界驾驶条件的非平稳特性实现最优适应。当车辆在不同的驾驶模式之间切换时，比如从拥挤的城市走走停停行驶状态转变为稳定的高速公路巡航状态，潜在的功率需求动态以及燃油经济性与燃料电池耐用性之间的最佳平衡都会发生显著变化。此外，训练这样一个通用的智能体需要庞大且多样化的数据集，这不仅会导致较高的数据获取成本，还可能在未知条件下无法保证系统的稳健性能。为了解决这些局限性，本文提出了一种结合驾驶条件识别的多智能体切换能量管理策略。我们的框架不依赖于单一的通用控制器，而是为每种典型的驾驶模式离线训练专门的TD3智能体，然后通过实时分类器根据当前的驾驶环境选择并激活最合适的智能体。与传统的单一智能体深度强化学习方法相比，这种架构具有显著的优势：（1）每个专用智能体都能为其所处的静态环境学习量身定制的策略，避免了不同数据分布之间的干扰；（2）模块化结构使得可以为每种模式独立调整奖励函数权重，从而实现特定模式下燃油经济性与耐用性之间的最佳平衡；（3）由于分类器能够可靠地将车辆的当前状态与最相关的预训练智能体匹配起来，因此所构建的系统对未知的驾驶工况具有出色的鲁棒性。本研究的主要贡献包括：（1）提出了一种基于TD3算法的创新多智能体能量管理框架。与传统的单一智能体深度强化学习策略不同，我们的框架为不同的驾驶条件训练独立的TD3智能体，并结合智能切换机制，实现在实时操作中的自适应和无缝策略选择。通过与现有的先进深度强化学习策略的仿真对比，证明了所提方法的优越性能。（2）构建了一种基于随机森林的道路条件识别器。该模型通过从车辆速度曲线中提取多个特征，能够高精度地识别典型的驾驶模式，为现实世界条件下的情境感知能量管理提供了可靠的依据。（3）提出了一种改进的TD3算法，该算法结合了多目标奖励函数。通过引入高斯噪声来提高探索效率和政策稳定性。此外，还设计了一种多目标奖励函数，该函数能够同时惩罚氢气消耗、减缓燃料电池退化，并保持电池充电状态的稳定，从而实现系统整体经济性、耐用性和安全性的协同提升。

本文的结构如下：第2节介绍燃料电池混合动力电动汽车的混合动力系统结构及其模型。第3节描述驾驶条件识别过程以及所提出的基于TD3算法的能量管理框架。第4节给出仿真结果及对比分析。最后，第5节总结研究成果并展望未来。

系统结构与建模
燃料电池混合动力电动汽车的电力系统主要由燃料电池、锂电池、驱动电机以及辅助系统等组成。其结构图如图1所示。燃料电池提供主要的驱动力，而在高功率需求情况下，尤其是在加速和爬坡等高负载条件下，锂电池则起到辅助燃料电池的作用。此外，锂电池还能在制动过程中回收能量，并通过再生机制为电池充电。本节将基于上述系统建模，详细阐述燃料电池混合动力汽车的EMS设计，包括多智能体切换策略以及改进后的TD3算法整合等关键技术方面。

A. DCR分类器
在实际运行中，不同的道路条件会对车辆的速度分布、功率需求及能量流动特性产生显著影响。本文提出了一种基于RF的DCR分类器，用于提供前馈式的道路条件标签。

结果分析与比较

A. 算法参数设置
本文所采用的强化学习策略的参数配置如表5所示。为满足不同工作条件下的驾驶需求，我们调整了三个独立智能体（高速路况、平坦路况和拥堵路况）奖励函数中的权重参数。在高速路况下，智能体对电池状态SOC的稳定性有更高要求，因此相应提高了SOC的权重。

结论
本研究提出了一种基于DCR的新型多智能体切换EMS，以克服单一智能体强化学习在处理复杂多变驾驶环境时的局限性。该系统首先利用提取的速度曲线特征，通过基于随机森林的DCR分类器准确识别典型驾驶条件；随后采用加入高斯噪声的改进型TD3算法来增强探索能力，同时通过多目标奖励函数平衡燃油经济性、燃料电池耐用性和电池性能。

资金支持
本研究部分得到了河南省自然科学基金-优秀青年创新群体项目（编号242300421004）以及国家自然科学基金（编号62303424、62503001和52307226）的支持。

作者贡献说明
杜阳：概念构思、资金获取、方法设计、资源协调、论文审阅与编辑。刘旭刚：数据整理、方法设计、验证工作、初稿撰写。廖月峰：资金获取、研究实施、项目管理、监督指导。李敏洁：方法设计、监督指导、验证工作、论文审阅与编辑。

利益冲突声明
作者声明不存在任何可能影响本文研究成果的已知财务利益或个人关系。

致谢
本研究部分得到了河南省自然科学基金-优秀青年创新群体项目（编号242300421004）以及国家自然科学基金（编号62303424、62503001和52307226）的支持。

联系信箱：

粤ICP备09063491号

热点排行