《Engineering Applications of Artificial Intelligence》:A deep learning method for drilling condition identification based on data oversampling and automated feature extraction
编辑推荐:
准确识别钻井工况对于钻井作业中的实时监控、风险预警及智能决策至关重要。然而,基于时序录井数据进行钻井工况识别面临着严重的类别不平衡、高维噪声参数以及长期趋势与短期波动同时存在等问题。为应对上述挑战,本研究提出了一种集成的深度学习框架用于钻井工况识别。研究人员采
准确识别钻井工况对于钻井作业中的实时监控、风险预警及智能决策至关重要。然而,基于时序录井数据进行钻井工况识别面临着严重的类别不平衡、高维噪声参数以及长期趋势与短期波动同时存在等问题。为应对上述挑战,本研究提出了一种集成的深度学习框架用于钻井工况识别。研究人员采用基于边界线-合成少数类过采样技术(Borderline-SMOTE)的边界聚焦过采样策略来增强少数类和模糊样本,以缓解类别不平衡问题。利用基于可扩展假设检验的时间序列特征提取(Tsfresh)框架进行自动化时序特征提取与统计筛选,以降低人工特征工程偏差并提升特征代表性。此外,研究人员针对钻井数据定制了多元长短期记忆网络(LSTM)–全卷积网络(FCN)模型,以并行捕获长期时序依赖关系和局部动态变化,从而实现对复杂钻井作业的有效建模。所提方法利用来自6口井的真实钻井数据进行验证,涵盖16种典型钻井工况。实验结果表明,该框架在测试集上取得了94.00%的Macro-F1分数。与包括LSTM、Transformer和一维残差网络(ResNet-1D)在内的五种先进基线模型的对比分析,经Wilcoxon符号秩检验(p < 0.05)证实,验证了所提方法具有统计显著性的性能优势。此外,消融研究验证了关键模块的有效性,且单样本推理时间仅为8 ms,满足工业级实时监控的要求。
钻井工况识别是石油钻探工程中的关键技术环节,其目标是通过对多源多参数时序录井数据的连续监测与综合分析,判定当前作业状态,为钻井监控、风险预警和智能决策提供技术支撑。随着油气勘探开发向更深、地质更复杂的层系延伸,钻井作业面临着显著的地层非均质性、频繁的岩性变化以及广泛存在的高温高压环境,导致钻井过程呈现强非线性、强烈多参数耦合及作业状态快速转换等特征。传统的基于物理模型、专家知识或经验阈值的方法在相对稳定地质条件下有效,但在高维、多变量复杂地下环境中适应性不足、主观性强、依赖专家经验,尤其难以处理大规模时序数据。
尽管人工智能技术在钻探数据分析中取得了显著进展,但钻井工况识别仍面临三个核心挑战:一是类别不平衡问题严重,如旋转钻进等工况样本远多于 idle 等少数类,导致模型训练偏向多数类;二是高维噪声参数与混合时间尺度并存,长期趋势与短期局部波动交织;三是现有研究往往孤立地关注特征提取或模型选择,缺乏对数据预处理、特征工程和时序建模协同效应的系统考量。对此,Wang等研究人员提出了一个问题驱动的集成化钻井工况智能识别框架,该研究成果发表于《Engineering Applications of Artificial Intelligence》。
该研究的技术路线包含三大核心模块。在数据层面,采用Borderline-SMOTE边界聚焦过采样策略,针对决策边界附近的少数类和易混淆样本进行增强,从数据根源缓解类别不平衡对模型训练的不利影响。在特征工程层面,引入Tsfresh框架对原始钻井时序数据进行自动化特征提取与统计筛选,该工具可自动生成并筛选大量统计特征,有效降低人工特征工程的偏差,充分挖掘时序数据中潜在的统计特性、复合特征及时频域特征。在模型架构层面,定制了多元LSTM–FCN混合深度学习模型,通过维度重塑与并行时序特征学习,使长短期记忆网络的长期依赖建模能力与全卷积网络的局部特征提取优势形成互补。
数据集来源于某油田H区块6口典型井的现场录井作业,数据采集系统记录了528,109个连续时间戳样本,采样间隔为5秒,原始数据包含25个传感器通道。经预处理后聚焦于反映钻井工况动态变化的关键物理量。实验涵盖16种典型钻井工况,测试结果以94.00%的Macro-F1分数验证了整个框架的有效性。
在结果呈现方面,研究通过多维度实验对方法进行了系统验证。类别不平衡处理模块的效果验证表明,相比原始未平衡数据及随机过采样、SMOTE等传统方法,Borderline-SMOTE在边界样本增强方面表现更优,显著提升了少数类及边界易混淆工况的识别稳定性。自动化特征工程模块的分析揭示了特征维度与模型泛化性能之间的非线性关系,为钻探时序特征工程提供了实践指导。LSTM–FCN混合模型的性能验证显示,该架构在捕获长短期时序模式方面优于单一LSTM或FCN模型。与LSTM、Transformer、ResNet-1D等五种先进基线模型的对比中,所提方法经Wilcoxon符号秩检验(p < 0.05)确认具有统计显著性的性能优势。消融研究逐一验证了各关键模块的有效性,且单样本推理时间仅8毫秒,满足工业级实时 monitoring 要求。
在讨论与结论部分,研究人员指出该框架的核心价值在于系统性地整合了数据预处理、特征工程和模型架构三个层面,形成了面向复杂钻井时序数据的完整解决方案。Borderline-SMOTE的应用不仅平衡了样本分布,更重要的是通过边界样本聚焦增强,提升了模型对临界状态识别鲁棒性;Tsfresh的引入将特征工程从依赖专家经验转向数据驱动,增强了方法的泛化适应性;LSTM–FCN的并行架构设计则充分考虑了钻井数据长短期特性并存的本质,实现了对复杂动态模式的高效建模。研究结论总结为:(1)针对复杂多元钻井时序数据,构建了一个问题导向的集成化钻井工况识别框架,通过联合处理类别不平衡、自动化特征工程和长短期时序依赖建模,实现了高度不平衡且含噪数据环境下16种典型钻井工况的稳定准确识别,该框架对真实钻井场景具有强适应性;(2)系统地将Borderline-SMOTE应用于钻井工况识别,并定量验证了其提升少数类及边界敏感工况识别稳定性的效果;(3)通过维度重塑和并行时序特征学习,为钻井工况识别定制了多元LSTM–FCN模型,提升了长序列钻井数据中的识别准确率和计算效率;(4)通过不同特征提取规模的对比实验,揭示了钻井工况识别中特征维度与模型泛化性能之间的非线性关系,为钻井应用中的时序特征工程提供了实践参考。