基于SHAP引导的数据集致密化在气膜冷却效率预测中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Case Studies in Thermal Engineering》：SHAP-Guided Dataset Densification for Film Cooling Effectiveness Prediction

【字体：大中小】 时间：2026年05月25日 来源：Case Studies in Thermal Engineering 6.4

编辑推荐：

　　机器学习为燃气轮机预测建模提供了更多途径，尤其在捕捉气膜冷却等复杂流动与传热行为方面表现突出。然而，数据驱动模型的性能往往受限于训练数据集质量及其内部决策机制的黑箱特性，制约了其在工程实践中的可信度。针对上述问题，研究人员提出了一种由可解释性驱动的框架，通过S

机器学习为燃气轮机预测建模提供了更多途径，尤其在捕捉气膜冷却等复杂流动与传热行为方面表现突出。然而，数据驱动模型的性能往往受限于训练数据集质量及其内部决策机制的黑箱特性，制约了其在工程实践中的可信度。针对上述问题，研究人员提出了一种由可解释性驱动的框架，通过SHapley Additive exPlanations（SHAP）分析将样本选择策略与模型性能关联起来。研究以燃气轮机叶片气膜冷却效率预测为背景，在多尺度反卷积神经网络（Multi-Scale Deconvolutional Neural Network，MS-DeCNN）中，基于不同特征密度的结构化数据集开展训练，并利用SHAP量化各特征的贡献及交互作用，从而指导目标样本选择与特征致密化。结果表明，横向扩张角β与吹风比M对预测精度起主导作用，而前向扩张角γ的影响具有情境依赖性，其密度与特征交互可能降低或提升模型稳定性。对不同致密化方案的比较发现，β与M全致密、γ部分致密的配置为最优样本选择策略。相较于所有特征全致密方案，该方案的平均绝对误差（Mean Absolute Error，MAE）与均方根误差（Root Mean Square Error，RMSE）分别降低13%与12.5%，决定系数（Coefficient of Determination，R2）提升0.5%。该框架提升了预测可靠性与物理透明度，为机器学习在燃气轮机设计与分析中的应用提供了可行路径。

研究背景方面，燃气轮机高温部件的气膜冷却效率预测对提升热端部件寿命与安全运行至关重要。传统深度神经网络虽在非线性流动与传热过程预测中表现优异，但其“黑箱”特性导致内部决策机制难以解释，且数据集结构与样本选择对模型泛化能力影响显著，限制了在工程实际中的应用。现有方法多聚焦于将物理规律嵌入模型或校正预测偏差，但均假设训练数据集已具有代表性，未从数据本身优化入手。因此，亟需建立一种融合可解释性分析与特征、样本选择优化的统一框架，将模型评估从被动验证转化为主动优化。

关键技术方法方面，研究采用扇形气膜孔稳态数值模拟数据集，主流与冷气均设为理想气体，湍流模型选用SST k-ω，边界条件参考已有实验验证。为避免常规K折交叉验证在小样本下的分组干扰，采用改进的交叉验证策略，将27个样本的基线数据集划分为6种固定测试配置，每种配置重复3次独立实验取均值。特征致密化以三位编码表示β、γ、M的密度状态，“3”为基线密度，“5”为全致密。模型采用多尺度反卷积神经网络（MS-DeCNN），结合梯度修正损失函数gMSE、AdamW优化器与Lookahead优化策略，并引入余弦退火动态学习率调整方法。

研究结果方面，首先在基线数据集性能分析中，模型在六组验证集上MAE低于0.035、RMSE低于0.05、R²高于0.9，表现出稳健性。SHAP分析显示M与β对预测呈正向驱动，γ呈负向影响，特征贡献排序为M > β > γ，交互强度排序为β-M > γ-M > β-γ。单特征致密化实验表明，M致密化对精度提升最大，β次之，而γ致密化反而劣于基线，证实其贡献有限且存在冗余信息。多特征致密化结果显示，β与M同时全致密的5-3-5方案在所有验证集中均取得最低误差与最高R²，优于全致密5-5-5方案，说明样本数量并非唯一决定因素，特征选择与密度更为关键。进一步验证γ的作用发现，其影响具有情境依赖性，高密度会引入噪声，低密度可改善鲁棒性，且在β与M同时存在时可被部分抵消。空间误差分布与统计比较确定5-4-5为最优致密化方案，与5-5-5相比MAE降低13%、RMSE降低12.5%、R²提升0.5%，并通过配对t检验验证显著性。跨模型验证表明该策略不依赖特定架构，MS-DeCNN整体优于简化CNN变体。SHAP物理可解释性分析重构了气膜冷却的控制层级：M主导动量控制区，β决定几何附着与展向扩散的最优区间，γ仅在与其他特征耦合时发挥作用，响应曲线与经典热流体原理一致。

讨论与结论部分指出，SHAP不仅是事后解释工具，更是数据策略的主动引导机制。研究证明，通过可解释性驱动的样本选择，可在有限数据条件下构建兼具高效率与物理透明度的训练集，避免盲目填充参数空间带来的计算浪费。最优致密化方案在全局指标与局部空间一致性上均达到最佳平衡，为燃气轮机气膜冷却预测提供了一种资源高效、机制清晰的方法论。该研究发表于《Case Studies in Thermal Engineering》，成果可推广至湍流预测与工程优化设计，未来将在曲面叶片、多排气膜孔及更高保真数据集上进一步验证其适用性。

联系信箱：

粤ICP备09063491号

热点排行