面向双Wiebe燃烧模型实时标定的物理信息课程学习：一种深度强化学习方法

《Energy Conversion and Management-X》：Physics-informed curriculum learning for real-time calibration of double wiebe combustion models: a deep reinforcement learning approach

【字体：大中小】 时间：2026年05月25日 来源：Energy Conversion and Management-X 7.6

编辑推荐：

　　双Wiebe燃烧模型的精确标定是实现下一代数字孪生与自适应排放控制所需的缸压重构误差低于4%的前提，但该问题本质上是病态的：多个参数组合可产生热力学等效的压力曲线，导致传统优化器在整个运行工况范围内产生物理不一致的标定图谱。遗传算法作为当前工业标准，每个工况点

双Wiebe燃烧模型的精确标定是实现下一代数字孪生与自适应排放控制所需的缸压重构误差低于4%的前提，但该问题本质上是病态的：多个参数组合可产生热力学等效的压力曲线，导致传统优化器在整个运行工况范围内产生物理不一致的标定图谱。遗传算法作为当前工业标准，每个工况点标定耗时约1900毫秒，无法满足车载实时部署与硬件在环(HIL)验证流程的需求。研究人员假设，通过三阶段课程训练的物理信息近端策略优化(PPO)智能体，可同时实现竞争性压力轨迹精度、强制物理可行性约束，并通过策略梯度优化在退化解流形上的隐式正则化抑制补偿效应。研究人员基于一台排量为499.4 cm3的单缸汽油直喷(GDI)发动机的1258个工况点训练PPO智能体，并在分布距离从0.161σ（插值）到1.112σ（分布外保留集）的四种划分策略下，与A2C、遗传算法及XGBoost监督学习基线进行对比。该框架在分布外保留集上实现了R2= 0.971与91.5%的物理可行性成功率，较XGBoost提高25.4个百分点，将三个病态参数（Δθ、λw、ht,c）的总变差(TV)比相对于遗传算法降低67%，且仅需0.26毫秒的纯执行推理时间（较遗传算法快7314倍），在汽车微控制器单元(MCU)上的估计延迟约为1.8毫秒，以5.5倍裕量满足10毫秒HIL截止期限。这些结果确立了物理信息课程深度强化学习作为一种可部署的标定策略，兼具物理约束满足、补偿效应缓解及ECU兼容内存占用（712 kB，而XGBoost约为12 MB），为下一代动力系统中实时车载燃烧模型标定提供了可行路径。

该研究针对内燃机(ICE)燃烧模型标定中存在的计算精度与实时性矛盾，以及传统优化方法易陷入非物理解的问题，提出了一种融合物理信息与课程学习的深度强化学习(DRL)框架。研究背景源于混合动力汽车(HEV)与插电式混合动力汽车(PHEV)仍依赖内燃机作为主要动力源，但现有零维(0D)热力学模型虽计算速度快，却因半经验子模型（如Wiebe函数与Woschni传热模型）的系数提取属于非线性病态反问题，导致标定结果物理一致性差。传统遗传算法(GA)等全局优化方法虽能找到数学误差最小点，但存在“补偿效应”——即通过不合理调整一个物理现象的参数来弥补另一个物理现象的建模缺陷，造成相邻工况点参数剧烈震荡，破坏模型泛化能力。此外，纯数据驱动的监督学习模型缺乏物理可解释性，且存在误差堆叠问题。为解决上述挑战，研究人员构建了基于物理信息近端策略优化(PPO)的智能标定系统，通过三阶段课程学习逐步扩展参数空间与环境随机性，在确保物理约束的同时显著提升标定效率与稳定性。实验结果表明，该方法不仅在分布外工况下保持了高精度，还大幅降低了参数轨迹的振荡，满足车载嵌入式系统的实时部署需求。该成果发表于《Energy Conversion and Management-X》，为内燃机数字孪生与自适应控制提供了创新的解决方案。

研究人员采用的主要关键技术方法包括：首先，构建零维(0D)单区热力学模型作为强化学习环境，基于质量与能量守恒定律模拟缸内过程，采用双Wiebe函数表征预混与扩散燃烧阶段，并引入改进型Woschni传热关联式，将对流换热系数缩放因子作为智能体调控参数；其次，设计物理增强的观察空间，融合归一化缸压、压力导数(dP/dθ)、累积放热率(CHR)及工况参数，并加入上一时刻动作以实现时序一致性；第三，采用近端策略优化(PPO)算法，通过剪切替代目标函数限制策略更新幅度，结合包含压力拟合精度与物理约束（峰值压力、温度上限、燃烧相位、放热完整性）的复合奖励函数引导训练；第四，实施分阶段课程学习策略，从受限确定性参数范围逐步扩展至全物理边界，并随训练进程增加环境噪声强度以提升泛化性；第五，基于一台499.4 cm³单缸汽油直喷(GDI)发动机的实验数据集（共1258个工况点，涵盖1500–4500 RPM转速与0.938–2.068空燃比范围）进行训练与验证，并设计四种数据划分策略（包括网格分层、速度等值线保留、高负荷外推等）以严格评估分布外泛化能力。

研究结果部分的主要发现如下：

消融研究

通过移除课程学习、物理增强观察或物理约束奖励等模块，验证了各组件的必要性。移除课程学习导致成功率骤降至1.2%，R²降至0.85，证明其在避免非物理局部极小中的关键作用；移除物理增强观察使成功率降至68.7%，表明显式热力学特征提升了状态可观性；仅使用NRMSE奖励的模型虽统计精度相当，但物理可行性显著下降，证实物理约束可作为正则化项而不牺牲拟合精度。

算法选择与复杂度分析

对比PPO与A2C算法在单/双Wiebe模型下的表现，PPO在分布外工况（速度等值线保留集）上达到91.5%的成功率且种子间方差为零，而A2C虽R²略高但成功率波动大（73.4% ± 17.1%），显示PPO的信任域机制保障了生产级稳定性。双Wiebe模型较单Wiebe模型虽收敛慢，但最终精度更高，突破了结构性能天花板。

与传统及监督学习基线比较

与基于遗传算法伪标签训练的XGBoost回归模型相比，两者在插值任务上精度相当，但在分布外工况下，PPO的物理可行性成功率（91.5%）显著高于XGBoost（66.1%）。PPO将病态参数（Δθ、λ_w、h_t,c）的总变差(TV)比相对于遗传算法降低67%，且模型体积仅712 kB，不足XGBoost（约12 MB）的1/17，更适合ECU部署。XGBoost在高负荷外推区域表现略优，但PPO在无需离线标签生成与物理约束保障方面优势明显。

补偿效应分析

通过分析沿2000 RPM等速线的参数轨迹，发现PPO在无法独立辨识的病态参数组（燃烧持续期Δθ、Wiebe权重λ_w、燃烧期传热系数h_t,c）上实现了近平坦的轨迹，总变差较遗传算法降低67%。这并非声称恢复了真实值，而是提供了退化解流形上校准稳定的代表，避免了相邻工况点的剧烈跳变，更适用于ECU查表与自适应控制。

计算效率与车载部署可行性

纯执行推理仅需0.26毫秒/点，较遗传算法加速7314倍。基于CoreMark基准估算，在AURIX TC397微控制器上的延迟约为1.8毫秒，以5.5倍裕量满足10毫秒HIL截止期限。XGBoost则因模型体积大（约12 MB）与推理延迟高（约15.8毫秒）难以满足实时需求。

讨论与结论

研究人员指出，课程学习是框架成功的核心，缺失时成功率不足2%；PPO的稳定性优于A2C，尤其在分布外场景；深度强化学习与监督学习各具适用场景，前者在物理一致性与部署紧凑性上占优，后者在外推能力上略强；补偿效应无法彻底消除，但PPO提供了工程可用的平滑参数轨迹；当前框架已具备车载实时部署条件。局限性在于仅在单一发动机上验证，未来需扩展至多机型与燃料类型，并通过量化技术进一步压缩模型体积。该研究为内燃机实时智能标定提供了可落地的技术路径，对推进动力系统数字孪生与低碳化具有重要意义。

热点排行