《Algorithms》:An Interpretable Prediction Method for Tubing Corrosion Based on CASA-XGBoost and SHAP-Sobol
编辑推荐:
在多因素耦合条件下预测油管腐蚀速率时,传统方法往往难以有效分析温度、压力、CO2分压(PCO2)及H2S分压(PH2S)等变量间的非线性交互作用,且缺乏预测过程的可解释性。针对此,研究人员首先通过高温高压失重实验建立了涵盖三种典型钢材(2205双相不锈钢、CT
在多因素耦合条件下预测油管腐蚀速率时,传统方法往往难以有效分析温度、压力、CO2分压(PCO2)及H2S分压(PH2S)等变量间的非线性交互作用,且缺乏预测过程的可解释性。针对此,研究人员首先通过高温高压失重实验建立了涵盖三种典型钢材(2205双相不锈钢、CT80、N80)的腐蚀数据集。进而提出一种融合特征耦合分析与基于SHAP-Sobol可解释框架的机器学习流程:将上下文感知稀疏注意力(Context-Aware Sparse Attention, CASA)机制引入极端梯度提升树(eXtreme Gradient Boosting, XGBoost)集成学习中构建CASA-XGBoost预测模型,系统分析多特征交互并将其转化为有效预测信息;采用贝叶斯优化(Bayesian Optimization)进行自适应超参数调优,并针对不同材料实施分层五折交叉验证以提升泛化能力与稳定性;此外,利用SHAP-Sobol加权法在全球灵敏度分析与局部样本解释层面系统评估特征贡献及交互效应,实现特征耦合重构。结果表明,所提框架在三种钢材腐蚀数据集上优于随机森林(Random Forest, RF)与高斯过程回归(Gaussian Process Regression, GPR)基准模型,测试集决定系数(R2)最高达0.98且平均绝对误差(Mean Absolute Error, MAE)与均方根误差(Root Mean Square Error, RMSE)较低。基于SHAP-Sobol的可解释框架揭示了材料特异性敏感性:2205双相不锈钢受CO2-H2S交互影响显著,CT80受温度—压力耦合影响显著,N80在高腐蚀速率下因局部腐蚀机制导致性能下降。该研究为多因素耦合工况下高精度、可解释的油管腐蚀速率预测及防腐决策提供了参考。
论文解读:基于CASA-XGBoost与SHAP-Sobol的油管腐蚀可解释性预测研究
该研究发表于《Algorithms》期刊。油气管道内腐蚀是引发失效与环境风险的关键因素,其过程受温度、总压、CO2分压(PCO2)、H2S分压(PH2S)、流速及pH等多理化因素复杂非线性耦合作用控制。传统基于经验公式或单变量模型的预测方法难以表征真实工况下的腐蚀演化,现有机器学习方法虽提升了精度但多依赖人工特征工程且缺乏可解释性,难以量化多敏感变量间的耦合交互。为此,研究人员开展了基于上下文感知稀疏注意力(Context-Aware Sparse Attention, CASA)增强XGBoost(eXtreme Gradient Boosting)结合SHAP-Sobol加权可解释分析的多因素耦合油管腐蚀速率预测研究,证实了特征耦合重构对提升预测精度及揭示材料特异性腐蚀机理的重要性,为管道完整性管理提供了兼具高精度与透明决策依据的数据驱动方案。
研究人员采用的关键技术方法如下:基于高温高压失重实验获取2205双相不锈钢(Duplex Stainless Steel, 2205DSS)、CT80及N80碳钢三种典型管材腐蚀数据集(8输入特征,220样本);采用反距离加权(Inverse Distance Weighting, IDW)填补缺失值,3σ准则剔除离群值,Min-Max归一化;引入轻量级CASA模块作为特征精炼阶段以提取温压及腐蚀气体间的协同稀疏表示;构建CASA-XGBoost回归模型,利用贝叶斯优化搜寻最优超参数(树数、最大深度、学习率等)并结合分层五折交叉验证按材料分层抽样;提出SHAP-Sobol特征加权法——先训练代理模型计算SHAP(SHapley Additive exPlanations)值,再通过Jansen估计器求解Sobol一阶指数量化独立贡献与交互贡献,生成特征权重用于耦合特征重构(T×PT及PCO2×PH2S);以决定系数(R2)、平均绝对误差(MAE)、均方根误差(RMSE)评价性能,并以Random Forest(RF)与Gaussian Process Regression(GPR)为基准对照。
3.1. Data Source and Normalization Processing
数据源自三种钢材高温高压失重腐蚀实验,含温度(T)、PCO2、PH2S、N2分压(PN2)、总压(PT)、流速(V)、腐蚀时间(Time)及pH共8个特征变量与腐蚀速率目标变量,共220组数据。经IDW插补、3σ去离群值及[0,1]区间Min-Max归一化后,按材料类别进行分层五折交叉验证以保证各折材料分布与总体一致,确保评估客观可靠。
3.2. Global Analysis of Features and Coupled Reconstruction
研究人员应用SHAP分析得出各独立特征平均贡献:温度(T)为主导因素,PCO2次之,pH与PH2S分列三、四位,流速、总压及时间影响较小;Pearson相关分析显示PT与PCO2呈强负相关(?0.72),PCO2与PH2S呈中等正相关。在此基础上采用SHAP-Sobol法量化独立特征与耦合项(PT×T、PCO2×PH2S)权重,引入耦合项后总权重超过1表明耦合贡献具附加解释力。结论:温度—总压及CO2—H2S耦合效应对腐蚀预测具显著增益,需在特征空间中显式重构。
3.3. Model Hyperparameter Optimization
利用贝叶斯优化迭代搜索超参数空间,绘制不同配置下模型性能热图与训练/验证损失(Mean Squared Error, MSE)收敛曲线。八组配置均良好收敛且无过拟合,其中Model 3验证集损失最低、曲线平滑,故选其超参数为2205DSS、CT80、N80对应CASA-XGBoost模型的最终配置,RF与GPR亦经相同流程选定最优参数。
3.4. Analysis of Prediction Results
将各组特征权重嵌入模型预测三种材料腐蚀速率:(1)2205DSS引入PCO2?PH2S交互项后预测精度提升,15%误差带内数据点增多,SHAP-Sobol赋予该耦合项权重0.5171,表明两气协同影响钝化膜稳定性;(2)CT80对T?PT耦合敏感,引入后误差显著降低,该耦合项权重最高(0.5452),高温高压共同促进气体溶解度与反应动力学从而加剧腐蚀;(3)N80在低中腐蚀速率(<4.0 mm/a)依赖PCO2?PH2S交互预测较准,但>4.0 mm/a时偏离理想线,暗示高腐蚀下机制转向点蚀/流场扰动的局部腐蚀主导而当前模型未涵盖产物膜破裂特征。整体CASA-XGBoost测试集R2最高达0.98,MAE与RMSE低于RF(R2=0.92)与GPR(R2=0.88);RF训练最快但精度略低;GPR虽精度不足但可提供预测置信区间用于风险预警。CASA-XGBoost兼顾精度与速度适于在线监测。
3.5. Discussion on the Applicability and Limitations of This Study
该框架适用于三种试验钢材及同类多因素耦合腐蚀预测,但局限在于未涵盖其他潜在影响因素(如产物膜破裂、冲刷等),极端工况泛化性待独立数据集验证;引入注意力与可解释模块增加了计算复杂度;不同材料特征响应差异大,全通用模型尚需针对性适配。该方法支持管道完整性管理由被动维护向主动预警转变,未来将在更广材料体系与工况下融合机理模型与现场数据完善平台。
结论(Conclusions)翻译:
本研究建立了基于CASA-XGBoost的集成预测模型,利用实验及现场数据预测多因素耦合环境下油管腐蚀速率。采用SHAP-Sobol特征加权法评估输入特征重要性,分析独立贡献与耦合贡献,建立可解释预测框架。该框架不仅揭示了各环境因素对腐蚀速率的影响机制,也为工程实践提供了直观可靠的腐蚀预测工具。关键结论如下:
(1) 经SHAP-Sobol加权量化分析,温度(T)被确定为影响腐蚀速率的首要因素,其次为CO2分压及pH值;此外,温度—总压(T-PT)耦合效应与CO2—H2S分压(PCO2-PH2S)耦合效应对不同钢级腐蚀行为具显著影响。
(2) 与RF及GPR相比,XGBoost模型对三种代表性管材(2205DSS、CT80、N80)表现出更优预测性能。经特征耦合重构后,模型测试集R2最高达0.98,MAE与RMSE显著降低,优于RF(R2=0.92)与GPR(R2=0.88)。
(3) 模型显示出材料差异性特征敏感性:2205DSS受气体交互作用影响大,CT80对温度—压力耦合更敏感,N80在高腐蚀速率下预测性能下降。表明针对材料属性进行特征适配与模型优化对腐蚀预测至关重要。
综上,本研究建立的可解释CASA-XGBoost集成预测模型实现了多因素耦合条件下油管腐蚀速率的高精度、可解释预测,为油管完整性管理与防腐蚀决策提供了实用工程价值。