《Applied Sciences》:Predictive Modelling of Nitrogen Content in Molten Metal During BOF Steelmaking Processes via Python-Based Machine Learning: A Benchmarking of Statistical Techniques
Jaroslav Demeter,
Branislav Bu?ko and
Martina Hrubov?áková
编辑推荐:
摘要
研究人员针对BOF(Basic Oxygen Furnace,碱性氧气转炉)炼钢四个生产阶段(脱硫后铁水、出钢前粗钢、二次冶金初期钢水、二次冶金末期钢水)的小样本工业数据,系统比较了八种回归模型的氮含量预测性能。研究采用Z-score标准化与固定随机种子
摘要
研究人员针对BOF(Basic Oxygen Furnace,碱性氧气转炉)炼钢四个生产阶段(脱硫后铁水、出钢前粗钢、二次冶金初期钢水、二次冶金末期钢水)的小样本工业数据,系统比较了八种回归模型的氮含量预测性能。研究采用Z-score标准化与固定随机种子确保可复现性,以MAE、MSE、R2、MAPE及预测精度(100%?MAPE)为核心评价指标。结果表明:岭回归(Ridge Regression)在低维线性阶段(PHASE #1、#4)表现最优,测试精度达84.59%与84.04%;前馈神经网络(FNN)在高维非线性BOF阶段(PHASE #2)精度最高(79.77%),显著优于线性模型;支持向量回归(SVR)凭借ε-不敏感损失与交叉验证正则化,在所有阶段均保持正R2(0.136–0.277),泛化稳定性最强;高斯过程回归(GPR)仅在低维阶段(PHASE #1,84.73%)接近岭回归,高维阶段因特征数逼近样本量导致R2为负。多项式回归因特征空间过度膨胀引发严重过拟合,决策树与随机森林性能居中。研究证实模型选择需匹配阶段特性:低维线性阶段适用岭回归,高维非线性阶段首选FNN,需稳定方差解释时推荐SVR。成果发表于《Applied Sciences》,为炼钢过程质量控制提供了数据驱动建模依据。
论文解读
研究背景与意义
BOF炼钢过程中氮含量是影响钢材韧性与焊接性能的关键指标,其动态变化受多阶段物理化学反应耦合控制。现有工业预测面临两大瓶颈:一是脱硫、吹炼、二次冶金各阶段热力学机制差异大,单一模型难以全域适用;二是产线数据样本量有限(单阶段仅54–77组),传统机理模型与小数据机器学习均存在泛化风险。研究人员通过开展多模型对比研究,旨在明确不同炼钢阶段的适配算法,解决小样本下氮含量精准预测的共性难题,对降低废品率与优化工艺参数具工程价值。该研究发表于《Applied Sciences》。
关键技术方法
研究覆盖四阶段工业数据流:PHASE #1(脱硫后铁水,14特征/77炉)、PHASE #2(BOF出钢前粗钢,31特征/69炉)、PHASE #3(二次冶金初期钢水,11特征/60炉)、PHASE #4(二次冶金末期钢水,34特征/64炉)。采用80/20固定划分训练-测试集,Z-score标准化输入变量。对比八种回归模型:线性回归(Linear Regression)、二次多项式回归(Polynomial Regression)、岭回归(Ridge Regression, α=100)、决策树(Decision Tree Regressor)、随机森林(Random Forest, n_estimators=100)、前馈神经网络(FNN, 架构256→128→32→1, dropout=0.3, AdamW优化器)、高斯过程回归(GPR, Matérn ν=2.5核+WhiteKernel, n_restarts_optimizer=10)、支持向量回归(SVR, RBF核, GridSearchCV五折交叉验证调参)。评估指标包含MAE、MSE、R2、MAPE及预测精度。
研究结果
3.1 线性回归模型
在PHASE #1与#3分别取得83.70%与79.06%精度,R2达0.62。表明脱硫阶段氮溶解符合西华特定律(Sievert’s law)的近似线性特征,二次冶金初期成分稳定时线性关系仍占主导。
3.2 多项式回归模型
训练精度近100%,但测试精度在PHASE #3跌至-48.16%(R2=-11.87)。二阶变换使特征数激增至原始7–8倍(如11特征扩为77项),小样本下系数失稳导致预测发散,证实其不适用于工业小数据集。
3.3 岭回归模型
PHASE #1(84.59%)与#4(84.04%)全域最优,RMSE低至0.00080 wt.% N。L2正则化有效抑制PHASE #4中34个特征的多重共线性(如三次取样成分强相关),平衡偏差与方差。
3.4 决策树回归模型
未剪枝时PHASE #2精度仅37.56%,严重过拟合训练噪声。证明单棵树缺乏小数据泛化能力,需集成或正则化改进。
3.5 随机森林回归模型
PHASE #2精度70.85%,通过自助聚合(bagging)降低方差,但弱于FNN的9个百分点,未能充分捕捉BOF阶段复杂交互。
3.6 前馈神经网络模型
PHASE #2以79.77%精度居首(RMSE=0.00050 wt.% N),其分层非线性表征能力解析了吹氧参数、渣碱度、温度的多阶耦合。早停(early stopping)与丢弃层(dropout)成功防控过拟合。
3.7 高斯过程回归模型
PHASE #1精度84.73%(R2=0.186),接近岭回归;PHASE #2–#4精度降至60.02–73.33%,R2为负。贝叶斯插值特性在小样本高维场景(31–34特征)失效,核函数长度尺度估计失准。
3.8 支持向量回归模型
全阶段正R2(0.136–0.277),PHASE #2精度72.10%超越岭回归与随机森林。ε-不敏感管(ε-insensitive tube)与惩罚因子C的协同正则,使其在高维噪声数据中保持最稳健的方差解释力。
讨论与结论
跨阶段分析揭示模型选择法则:低维线性阶段(PHASE #1、#4)首选岭回归;高维非线性BOF阶段(PHASE #2)必选FNN;需兼顾精度与方差解释时,SVR为通用替代;PHASE #3线性模型足矣,SVR可提供适度非线性增强。R2需结合绝对误差解读——GPR虽在PHASE #4 MAE可控(1.06×10-3wt.% N),但负R2暴露其对测试集划分的敏感性,不适用该场景。研究最终推荐混合部署策略:脱硫与二次冶金末期用岭回归,BOF吹炼用FNN,二次冶金初期用线性回归或FNN。局限在于总样本量291炉制约了深度学习潜力,未来需扩大数据集并实施分层交叉验证。此项工作为冶金过程小数据建模提供了可复现的基准框架。