基于机器学习的BOF炼钢全流程氮含量预测模型比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Applied Sciences》：Predictive Modelling of Nitrogen Content in Molten Metal During BOF Steelmaking Processes via Python-Based Machine Learning: A Benchmarking of Statistical Techniques Jaroslav Demeter, Branislav Bu?ko and Martina Hrubov?áková

【字体：大中小】 时间：2026年04月14日 来源：Applied Sciences 2.5

编辑推荐：

　　摘要研究人员针对BOF（Basic Oxygen Furnace，碱性氧气转炉）炼钢四个生产阶段（脱硫后铁水、出钢前粗钢、二次冶金初期钢水、二次冶金末期钢水）的小样本工业数据，系统比较了八种回归模型的氮含量预测性能。研究采用Z-score标准化与固定随机种子

摘要研究人员针对BOF（Basic Oxygen Furnace，碱性氧气转炉）炼钢四个生产阶段（脱硫后铁水、出钢前粗钢、二次冶金初期钢水、二次冶金末期钢水）的小样本工业数据，系统比较了八种回归模型的氮含量预测性能。研究采用Z-score标准化与固定随机种子确保可复现性，以MAE、MSE、R2、MAPE及预测精度（100%?MAPE）为核心评价指标。结果表明：岭回归(Ridge Regression)在低维线性阶段（PHASE #1、#4）表现最优，测试精度达84.59%与84.04%；前馈神经网络(FNN)在高维非线性BOF阶段（PHASE #2）精度最高（79.77%），显著优于线性模型；支持向量回归(SVR)凭借ε-不敏感损失与交叉验证正则化，在所有阶段均保持正R2（0.136–0.277），泛化稳定性最强；高斯过程回归(GPR)仅在低维阶段（PHASE #1，84.73%）接近岭回归，高维阶段因特征数逼近样本量导致R2为负。多项式回归因特征空间过度膨胀引发严重过拟合，决策树与随机森林性能居中。研究证实模型选择需匹配阶段特性：低维线性阶段适用岭回归，高维非线性阶段首选FNN，需稳定方差解释时推荐SVR。成果发表于《Applied Sciences》，为炼钢过程质量控制提供了数据驱动建模依据。

论文解读

研究背景与意义

BOF炼钢过程中氮含量是影响钢材韧性与焊接性能的关键指标，其动态变化受多阶段物理化学反应耦合控制。现有工业预测面临两大瓶颈：一是脱硫、吹炼、二次冶金各阶段热力学机制差异大，单一模型难以全域适用；二是产线数据样本量有限（单阶段仅54–77组），传统机理模型与小数据机器学习均存在泛化风险。研究人员通过开展多模型对比研究，旨在明确不同炼钢阶段的适配算法，解决小样本下氮含量精准预测的共性难题，对降低废品率与优化工艺参数具工程价值。该研究发表于《Applied Sciences》。

关键技术方法

研究覆盖四阶段工业数据流：PHASE #1（脱硫后铁水，14特征/77炉）、PHASE #2（BOF出钢前粗钢，31特征/69炉）、PHASE #3（二次冶金初期钢水，11特征/60炉）、PHASE #4（二次冶金末期钢水，34特征/64炉）。采用80/20固定划分训练-测试集，Z-score标准化输入变量。对比八种回归模型：线性回归(Linear Regression)、二次多项式回归(Polynomial Regression)、岭回归(Ridge Regression, α=100)、决策树(Decision Tree Regressor)、随机森林(Random Forest, n_estimators=100)、前馈神经网络(FNN, 架构256→128→32→1, dropout=0.3, AdamW优化器)、高斯过程回归(GPR, Matérn ν=2.5核+WhiteKernel, n_restarts_optimizer=10)、支持向量回归(SVR, RBF核, GridSearchCV五折交叉验证调参)。评估指标包含MAE、MSE、R²、MAPE及预测精度。

研究结果

3.1 线性回归模型

在PHASE #1与#3分别取得83.70%与79.06%精度，R²达0.62。表明脱硫阶段氮溶解符合西华特定律(Sievert’s law)的近似线性特征，二次冶金初期成分稳定时线性关系仍占主导。

3.2 多项式回归模型

训练精度近100%，但测试精度在PHASE #3跌至-48.16%（R²=-11.87）。二阶变换使特征数激增至原始7–8倍（如11特征扩为77项），小样本下系数失稳导致预测发散，证实其不适用于工业小数据集。

3.3 岭回归模型

PHASE #1（84.59%）与#4（84.04%）全域最优，RMSE低至0.00080 wt.% N。L2正则化有效抑制PHASE #4中34个特征的多重共线性（如三次取样成分强相关），平衡偏差与方差。

3.4 决策树回归模型

未剪枝时PHASE #2精度仅37.56%，严重过拟合训练噪声。证明单棵树缺乏小数据泛化能力，需集成或正则化改进。

3.5 随机森林回归模型

PHASE #2精度70.85%，通过自助聚合(bagging)降低方差，但弱于FNN的9个百分点，未能充分捕捉BOF阶段复杂交互。

3.6 前馈神经网络模型

PHASE #2以79.77%精度居首（RMSE=0.00050 wt.% N），其分层非线性表征能力解析了吹氧参数、渣碱度、温度的多阶耦合。早停(early stopping)与丢弃层(dropout)成功防控过拟合。

3.7 高斯过程回归模型

PHASE #1精度84.73%（R²=0.186），接近岭回归；PHASE #2–#4精度降至60.02–73.33%，R²为负。贝叶斯插值特性在小样本高维场景（31–34特征）失效，核函数长度尺度估计失准。

3.8 支持向量回归模型

全阶段正R²（0.136–0.277），PHASE #2精度72.10%超越岭回归与随机森林。ε-不敏感管(ε-insensitive tube)与惩罚因子C的协同正则，使其在高维噪声数据中保持最稳健的方差解释力。

讨论与结论

跨阶段分析揭示模型选择法则：低维线性阶段（PHASE #1、#4）首选岭回归；高维非线性BOF阶段（PHASE #2）必选FNN；需兼顾精度与方差解释时，SVR为通用替代；PHASE #3线性模型足矣，SVR可提供适度非线性增强。R²需结合绝对误差解读——GPR虽在PHASE #4 MAE可控（1.06×10^-3wt.% N），但负R²暴露其对测试集划分的敏感性，不适用该场景。研究最终推荐混合部署策略：脱硫与二次冶金末期用岭回归，BOF吹炼用FNN，二次冶金初期用线性回归或FNN。局限在于总样本量291炉制约了深度学习潜力，未来需扩大数据集并实施分层交叉验证。此项工作为冶金过程小数据建模提供了可复现的基准框架。

联系信箱：

粤ICP备09063491号

热点排行