《Digital》:Pipeline Leakage Detection Using Machine Learning Techniques in Multiphase Flow Systems
编辑推荐:
摘要:管道仍是油气运输的主要方式,但易发生泄漏,尤其在气液两相流(Two-Phase Flow)系统中,泄漏会带来环境与安全风险。传统检测方法在瞬态多相流条件下常表现不佳,且许多数据驱动研究依赖静态评估指标,无法反映连续监测需求。本研究利用先前发表研究中OLG
摘要:管道仍是油气运输的主要方式,但易发生泄漏,尤其在气液两相流(Two-Phase Flow)系统中,泄漏会带来环境与安全风险。传统检测方法在瞬态多相流条件下常表现不佳,且许多数据驱动研究依赖静态评估指标,无法反映连续监测需求。本研究利用先前发表研究中OLGA模拟的数据集(约180,000个标注样本,含九种泄漏工况及一种无泄漏工况)构建机器学习框架用于泄漏检测。通过特征工程(Feature Engineering)增强压力、温度及质量流量变量以捕捉非线性泄漏行为。采用80/20分层划分训练集与测试集,并对训练集应用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)。极端梯度提升(eXtreme Gradient Boosting, XGBoost)分类器准确率达99.2%,误报率(False Positive)较随机森林(Random Forest, RF)降低53%,且保持接近零的漏报率(False Negative)。引入滑动窗口怀疑度(Suspicion)框架将静态分类扩展为时间依赖检测,检测延迟为9.81 s至82.04 s,无泄漏工况下零误报。通过压力、流量及快速傅里叶变换(Fast Fourier Transform, FFT)分析的物理论证确认检测结果对应真实水力扰动(Hydraulic Disturbance),证明所提框架可靠且具有物理可信度。
论文解读:基于机器学习技术的多相流系统管道泄漏检测
油气管道是全球能源基础设施的骨干,但即使是微小泄漏也会引发环境污染、安全隐患及经济损失。其中输送气液混合物的两相流(Two-Phase Flow)管道监测尤为困难,因为相间共存引入了强非线性动力学、流型转变及压力—温度耦合行为,可能掩盖或模拟泄漏特征。传统方法如压力点分析、质量平衡监测和声学传感在多相流系统中存在局限——段塞流(Slug Flow)、压缩机动作或阀门调节引起的压力瞬变易被误判为泄漏,而可压缩两相流中小泄漏可能因相重新分布部分被补偿导致信号可观测性降低。尽管已有数据驱动方法(集成树、神经网络、混合信号处理)展现潜力,但现有文献普遍依赖固定平衡数据集上的静态分类指标评估,未解决真实连续监测的时间依赖性和流式数据特性,也缺乏时态检测逻辑、系统误报抑制及独立物理验证的整合。Vandrangi等人曾基于相同OLGA数据提出自适应阈值(Adaptive Threshold, AT)法,但响应需数十分钟且依赖代理过程模型。为此,研究人员在本研究中基于同一OLGA模拟数据集,构建了结合多元监督学习与滑动窗口时态决策逻辑的机器学习(ML)框架,并通过时域及频域信号分析进行物理验证,以弥补上述研究空白。本文发表于《Digital》期刊。
研究人员选用Vandrangi等人发表的OLGA(Oil and Gas Simulator,Schlumberger商用瞬态多相流模拟器)模拟两相黑油混合物在约5.4 km直管中的瞬态数据,包含三种泄漏量级(2%、5%、10%)×三种位置(入口Inlet、中点Midpoint、出口Outlet)共9种泄漏工况及1种无泄漏基线,采样间隔0.5 s(2 Hz),取150–300 min稳态后时段分析,泄漏于180 min引入。合并数据集约180,000样本,按类别分层80/20划分,训练集用SMOTE过采样处理类别不平衡,测试集保持原始分布;Z-score标准化仅基于训练集统计量。特征工程在原始压力(PT)、温度(TM)、进出口质量流量(GT inlet/GT outlet)基础上增加PT3、TM3、PT×TM交互项、流量比(GT inlet/GT outlet)及质量不平衡量(GT inlet?GT outlet);FFT频带能量仅用于物理验证不参与分类。分别训练随机森林(RF, n_estimators=200)与极端梯度提升(XGBoost)二分类模型,XGBoost通过5折交叉验证随机搜索调参。将训练好的XGBoost嵌入实时监测框架:逐样本输出泄漏概率p(i),经滑动窗口(W=20/60/160 s,步长S=5 s)计算平均怀疑度pˉ(tk),超过决策阈值θ(0.3或0.5)触发报警,记录检测延迟(泄漏发生至首次超阈时间)。用准确率、精确率、召回率、F1、ROC–AUC、PR–AUC评估静态分类;用时延、误报率(无泄漏工况报警数)、怀疑曲线稳定性评估实时框架;通过时域压力/流量趋势对照及FFT频带能量变化进行物理一致性验证。
3.1. Baseline Model Performance
通过相关性矩阵分析确认特征间无严重多重共线性。RF测试集准确率为98.3%,精确率0.977,召回率1.000(零漏报),F1值0.988,ROC–AUC=0.998,PR–AUC=0.999,产生605例误报;特征重要性显示温度(TM)与出口质量流量(GT outlet)贡献最高。XGBoost经调优后测试集准确率达99.2%,精确率0.989,召回率0.999(零漏报),F1值0.994,ROC–AUC=0.999,PR–AUC=1.000,误报降至282例(较RF减少53%);增益重要性中PT×TM交互项占比约36%为最主要预测因子。对比表明XGBoost在保持近零漏报同时显著降低误报,适合实时部署;两模型均未出现过拟合迹象——预处理严格隔离测试集,且物理验证与时序检测佐证模型响应真实水力变化。
3.2. Real-Time Leak Detection
怀疑曲线在所有泄漏工况泄漏发生前接近零,发生后迅速上升;短窗口(20 s)响应快但波动大,长窗口(160 s)平滑但延迟增加。平均检测延迟随窗口增大而系统增加:θ=0.5时,20 s窗口约11 s、60 s窗口约31 s、160 s窗口约82 s,近似窗口半时长线性关系,符合移动平均滤波器预期。对全部十个独立时序数据集验证显示:无泄漏工况(D210)所有配置零误报;九种泄漏工况均可靠检出,延迟主要受窗口配置影响而非泄漏大小,入口与中点泄漏略早于出口泄漏检出(与扰动传播距离一致)。
3.3. Physical Validation—Pressure and Flow Trends
典型泄漏工况(D215O,10%出口泄漏)在180 min泄漏发生时,压力与出口流量时域信号出现明显瞬变及持续性变异,ML首次检出时刻与此水力过渡区间吻合,九种工况均有相似对应。
3.4. Exploratory Frequency Analysis
FFT分析仅作验证不含入分类特征。无泄漏工况(D210)前后频谱及频带能量比基本不变;泄漏工况(D215O)中频带(0.01–0.03 Hz)能量比由0.199降至0.080(降约60%),高频带(0.03–0.12 Hz)降约80%,低频带仍占主导——表明泄漏引起压力信号中高频振荡衰减、能量向低频集中,符合泄漏后质量动量重新分布导致系统向低压新准稳态过渡的物理图像,独立证实ML检测对应真实水力状态改变。
讨论部分指出:ML框架利用压力、温度与流量的联合行为捕获泄漏信息,XGBoost因序列残差修正及系统调参使误报减半,提高运营可信度;PT×TM交互项主导地位反映模型利用了两相流热力学耦合特征。滑动窗口时延可控且与移动平均响应一致,为操作员提供透明配置依据。全配置无泄漏零误报回应对数据驱动法常见质疑;检测时机取决于窗口设置而非泄漏幅度利于早期识别;入口/中点更早检出符合物理传播规律。时域与FFT物理验证增强了工业AI可解释性。相比同数据集上自适应阈值(AT)法需约30 min响应,ML框架达数十秒级检测且零误报,显著缩短泄漏流体释放量。局限性包括仅基于单一管线几何与OLGA仿真、缺现场噪声与标定漂移考验、需标记样本、RF未同等深度调参、窗口粒度待细化等。未来方向含现场数据验证、扩展流态/管型/流体(含H2与CO2管线)、融合FFT特征至分类器、动态阈值及与深度学习/物理信息神经网络对比。
结论(翻译):
本研究利用涵盖九种受控泄漏工况(2%、5%、10%泄漏量各位于入口、中点、出口)及一种无泄漏基线的OLGA模拟数据,建立并评估了两相油气管道泄漏检测的机器学习框架,主要发现如下:① XGBoost在预留测试集上准确率达99.2%,PR–AUC=1.000,零漏报,误报较随机森林基线减少53%(282对605),此性能优势归因于梯度提升的顺序残差修正与系统超参数调参,使XGBoost成为本场景下实时部署优选模型。② 滑动窗口怀疑度框架将瞬时概率转化为稳定时态平滑检测信号;平均检测延迟介于9.81 s(20 s窗口,θ=0.3)至82.04 s(160 s窗口,θ=0.5),θ=0.5时延迟近似窗口半时长——符合移动平均滤波器预期,为运行配置提供透明且数学可解释依据。③ 所有窗口与阈值配置下无泄漏数据集零误报,证明有效抑制正常多相流波动,回应数据驱动监测系统常见运行顾虑。④ 物理验证确认检测事件与真实水力扰动相符:压力与流量趋势在泄漏发生时出现可观测变化,FFT分析显示泄漏后中频能量降约60%、高频能量降约80%(无泄漏工况无此现象),证实模型输出具物理可信度。⑤ 相较于同数据集上自适应阈值基准法,机器学习框架检测延迟为数十秒级(对比数十分钟级),且在零误报前提下可可靠检测全部三个位置的2%泄漏。上述结果表明,多元监督学习结合时态结构化决策逻辑为管道泄漏监测提供了可靠、可解释且具物理可信度的基础。未来工作将聚焦于现场传感器数据验证、覆盖更宽操作条件与流体类型的扩展仿真、以及将时—频混合特征直接整合入分类框架的探索。