基于傅里叶神经算子的深度学习用于沉积构造识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Artificial Intelligence in Geosciences》：Deep Learning with Fourier Neural Operators for Sedimentary Structure Recognition

【字体：大中小】 时间：2026年05月25日 来源：Artificial Intelligence in Geosciences 4.2

编辑推荐：

　　沉积构造的分类是沉积学分析的基石，支撑着岩石描述、岩相解释、沉积环境重建和储层表征。交错层理、波状层理、平行层理和生物扰动等构造记录了沉积能量状态、搬运过程和沉积后改造，为层序地层学分析提供关键信息，并指导储层质量预测。传统上，此类解释依赖于对露头岩心图像的细

沉积构造的分类是沉积学分析的基石，支撑着岩石描述、岩相解释、沉积环境重建和储层表征。交错层理、波状层理、平行层理和生物扰动等构造记录了沉积能量状态、搬运过程和沉积后改造，为层序地层学分析提供关键信息，并指导储层质量预测。传统上，此类解释依赖于对露头岩心图像的细致目视检查，但该方法劳动密集、具有主观性，且在处理大数据集时易出现不一致性。利用计算机视觉进行自动沉积构造分类为提升效率、可重复性和可扩展性提供了途径。卷积神经网络（Convolutional Neural Networks, CNNs）是此类任务的主导深度学习范式，在岩相分类、生物扰动检测与强度评估、裂缝识别、矿物含量预测、火成岩识别和岩石质量指标等方面取得显著成功。然而，专门聚焦于沉积构造自动分类的研究仍然有限。现有研究或针对少数类别采用图像分类方法，或应用目标检测框架处理更广泛的构造类型，但均依赖基于像素的CNN架构，其特征学习本质上属于空间局域性学习。尽管CNNs在空间域表现强大，但其卷积操作主要捕获局部模式，在识别重复性或大规模周期性纹理（如层理）或高效建模全局上下文方面存在不足。傅里叶神经算子（Fourier Neural Operators, FNOs）通过主要在频率域而非单纯在空间域中运算，为上述问题提供了有前景的替代方案。FNOs利用傅里叶变换，高效捕获全局依赖关系和周期性模式，非常适合识别具有重复几何形态、韵律性曲流线理或砂岩波纹与泥岩互层的泥质层系等沉积构造。此外，FNO的平移不变性和强调相关频率成分的能力可降低对噪声的敏感性，并增强对地质有意义特征的识别，即使在复杂或非均质背景下亦然。尽管FNOs已在物理模拟中找到应用并最近被用于地质图像分析，但其在沉积学中的应用几乎未被探索。迄今为止，唯一的地质实例涉及基于无人机露头图像的岩性分类，且类别数量有限。相比之下，CNNs在沉积学任务中虽已普及，但受限于频率丰富域中的局域感受野。Beyond sedimentology, FNOs have been applied in various geophysical and Earth science domains, including seismic modeling, localizing microseismic sources, landslide dynamics, porous media classification, geological carbon storage, and remote sensing of soil carbon. In parallel, recent geoscience-AI studies have shown that transformer- and sequence-based architectures can also be highly effective for seismic facies classification and horizon interpretation, including label-integrated transformer approaches, ensemble dense inception transformer networks, and Mamba-driven feature-fused U-Net models. Together, these developments demonstrate the growing importance of global-context and non-local representation learning in geoscience, while highlighting that sedimentary-structure recognition from core images remains comparatively underexplored.本研究首次提出基于FNO的框架，用于从岩心图像中对广泛谱系的沉积构造进行分类。该框架与已建立的CNN架构及基于transformer的基线模型（DeiT-B16）进行系统对比，以评估分类准确性和计算效率。本研究旨在评价FNO的频率域建模能力相较于经典像素域CNNs，在识别和解释高分辨率岩相分析和储层表征所需沉积构造方面是否能提供切实优势。

沉积构造的自动识别长期依赖纯空间域的卷积神经网络。尽管先前研究已证明基于图像分类的可行性，但通常局限于有限类别或在复杂相中鲁棒性不足。本研究评估十一种沉积构造类别，并将傅里叶神经算子（Fourier Neural Operator, FNO）与三种已建立的CNN架构（EfficientNet-B2、MobileNet-V3、ResNet-50）以及基于transformer的基线模型DeiT-B16进行系统对比，在统一训练协议下进行评估。

研究背景与问题提出：沉积构造分类是沉积学分析的基石，支撑着岩石描述、岩相解释、沉积环境重建和储层表征。传统方法依赖对露头岩心图像的细致目视检查，虽有效但劳动密集、主观且在大数据集处理中易不一致。自动计算机视觉分类可提升效率与可复现性，CNNs虽已在岩相分类、生物扰动检测、裂缝识别等任务中成功应用，但针对沉积构造自动分类的研究仍有限。现有CNN方法在像素域运算，卷积操作主要捕获局部模式，对重复性纹理或全局上下文建模不足。FNO在频率域运算，通过傅里叶变换捕获全局依赖与周期性模式，对识别层理等周期性构造具有优势，但其在沉积学中的应用几乎空白。

数据集与方法：研究人员使用92,700张标注图像，涵盖来自加拿大阿尔伯塔省多个地层（Glauconite、Viking、Belly River、Dunvegan组）的高分辨率岩心盒照片，代表河口湾、滨岸、远岸和三角洲环境，岩性从泥岩到砾岩不等。三个独立盲测试集用于评估分布外泛化：美国犹他州Price River组公开岩心图像、二叠纪Wellington组岩心图像、以及阿尔伯塔能源监管机构岩心数据交互式地图开放存取库图像。数据集包含砾岩、交错层理、透镜状层理、低角度层理、波状层理、生物扰动泥质沉积、生物扰动砂质沉积、块状泥岩、块状砂岩、泥质披盖层和平行层理共11类沉积构造。数据采用分层5折交叉验证，训练集来自Dataset 1，盲测试集完全独立。

核心技术方法包括：（1）FNO架构：2D FNO框架，输入RGB图像经1×1卷积提升层投影至32通道高维特征空间，通过4个傅里叶块进行频谱卷积（保留各空间维度最低16个傅里叶模式，k_max=16），含FFT/iFFT变换、残差连接，后经1×1逐点混合层、全局平均池化、Dropout层，最终经128隐藏单元的双线性分类器输出；（2）基准模型：EfficientNet-B2、ResNet-50、MobileNet-V3 Small（均使用ImageNet预训练权重）及DeiT-B16（基于自注意力的ViT变体）；（3）统一训练协议：分层5折交叉验证、相同数据增强（亮度、曝光、高斯模糊、镜像翻转）、Adam/AdamW优化器、ReduceLROnPlateau学习率调度、加权交叉熵损失加标签平滑（0.1）、早停机制、224×224像素输入分辨率；（4）评估指标：精确率、召回率、F1分数、总体准确率、宏平均指标、推理时间、PR曲线；（5）消融实验：移除傅里叶层以验证频谱组件功能贡献；（6）分辨率鲁棒性测试：将盲测图像降采样至75%、50%、25%后恢复尺寸进行推理，量化预测稳定性；（7）频谱可视化：2D傅里叶幅度谱、低频重建（保留16模式）及各傅里叶块的激活响应图。

研究结果：3.1 总体分类性能——FNO实现最高总体准确率98.6%和宏平均F1分数0.982，优于EfficientNet-B2（97.5%/0.972）、DeiT-B16（97.2%/0.969）、MobileNet-V3（96.7%/0.963）和ResNet-50（96.0%/0.956）。配对t检验证实FNO相对所有基准架构的提升具有统计学显著性（p<0.05）。FNO在各类别上的精确率均高于0.975，泥质披盖层达0.993。FNO单张图像平均推理时间仅0.0023秒，远低于CNNs和DeiT-B16。3.2 模型复杂度与效率——FNO仅含约0.01百万参数和0.21 GFLOPs，对比EfficientNet-B2（7.7M/0.70G）、MobileNet-V3（4.2M/0.23G）、ResNet-50（23.5M/4.13G）和DeiT-B16（85.6M/16.85G），以极低计算成本实现最优性能。频谱可视化显示交错层理和平行层理的2D傅里叶幅度谱呈现不同各向异性特征，低频重建保留主导结构组织，深层频谱响应渐趋抽象但仍保持结构性。3.3 混淆矩阵分析——FNO保持最紧的对角线优势和最低的非对角线弥散。所有模型均存在向块状砂岩的误判泄漏，FNO和DeiT-B16均未能完全避免，反映弱层理化与无结构纹理间的固有几何重叠。CNNs对低角度层理、平行层理的误判更多，DeiT-B16介于EfficientNet-B2与FNO之间。3.4 训练与验证趋势——FNO收敛最快，训练和验证损失在约10个周期内降至0.9以下并稳定，验证准确率和F1分数在8-10个周期即超过0.95，最终稳定在约0.98；DeiT-B16早期学习快但中期波动较大；ResNet-50收敛最慢且最终性能最低。3.5 代表性情测试预测——FNO在多数挑战性案例中保持正确预测，而CNNs频繁出错：交错层理案例中被MobileNet-V3和DeiT-B16误判为块状砂岩；透镜状层理被EfficientNet-B2、MobileNet-V3和DeiT-B16误判为生物扰动泥质沉积；低角度层理被三种CNN误判为波状层理，而FNO和DeiT-B16正确识别；泥质披盖层被CNNs误判为波状层理，FNO和DeiT-B16正确识别。3.6 消融分析——移除傅里叶层后，多个先前正确分类的类别（砾岩、交错层理、透镜状层理、生物扰动泥质沉积） collapsed to low-angle lamination or massive sandstone dominated predictions，表明频谱卷积块对判别周期性层理几何至关重要而非辅助组件。3.7 分辨率鲁棒性——在0.25倍降采样下，FNO预测稳定性达0.91，优于DeiT-B16（0.83）、EfficientNet-B2（0.77）、ResNet-50（0.74）和MobileNet-V3（0.70），在各降级尺度均保持最高稳定性。

讨论：4.1 架构比较性能——FNO在所有评估指标上均达最高性能，98.6%准确率和0.983宏平均F1分数超越所有基准。DeiT-B16作为中间比较，虽优于MobileNet-V3和ResNet-50并接近EfficientNet-B2，但未能超越FNO且保留了类似CNNs的混淆趋势，表明自注意力虽有效捕捉长程空间依赖，但未能完全复制频域模型的频谱判别能力。4.2 架构容量与频谱建模——FNO参数仅0.01M、计算量0.21G FLOPs，却实现了超越7.7M-85.6M参数模型的性能，且推理延迟最低，有力反驳了容量解释。频谱可视化显示，地质结构的类别差异在频率域中表达为不同的频谱组织，低频重建保留可识别的结构，深层频谱层将信息转化为更抽象但仍有结构的内部表征。消融实验直接证明傅里叶层 centrally functional，移除后误判模式趋近于CNNs。分辨率鲁棒性进一步支持FNO不依赖精细像素纹理，而是捕捉在大幅细节损失后仍可识别的更广泛结构模式。4.3 混淆模式与结构歧义性——CNNs频繁将弱层理化相过度预测为块状砂岩，反映空间卷积将弱层理解释为均质纹理的倾向。FNO对角线更紧但仍存在向块状砂岩的泄漏，表明部分误判源于地质本身视觉重叠而非纯算法缺陷。盲测案例中，FNO和DeiT-B16在交错层理和低角度层理上优于CNNs，但透镜状层理和生物扰动砂/泥质沉积对所有模型均具挑战性。残差误差主要集中于地质上相邻的类别，如低角度层理-波状层理-弱结构砂岩、生物扰动泥质-砂质沉积、泥质披盖层与弱层理/块状泥岩，属于地质意义上可理解的近失误。训练图像全为硅质碎屑岩，而部分盲测含碳酸盐岩例，为跨岩性鲁棒性提供初步证据。4.4 局限性与实践意义——模型可能对图像分辨率、光照、色彩平衡和表面保存状况敏感；保留的16模式傅里叶窗口可能衰减极细微层理特征；无清晰周期性的块状相仍存在挑战；部分误判反映真实地质歧义而非算法错误，但未经多专家共识验证；稀有结构仍相对欠代表。实践层面，FNO结合高预测准确性、强类别平衡和极低推理延迟，非常适合高通量岩心扫描、自动测井管线及资源受限环境部署。频域建模应视为空间架构的补充而非替代，混合频谱-空间架构是未来改进方向。

研究结论：本研究评估了FNO框架对十一种沉积构造类别的自动分类，与EfficientNet-B2、MobileNet-V3、ResNet-50及基于transformer的DeiT-B16在相同训练条件下进行系统对比。所有评估指标中，FNO实现最高总体准确率（98.6%）和宏平均F1分数（0.983）。五折交叉验证的统计检验确认，相比CNN和transformer基线的提升具有显著性（p<0.05），表明观测到的性能提升不太可能源于随机变异。超越量化指标，频谱可视化和结构化消融实验证明傅里叶层在保留周期性层理信息方面发挥核心功能作用。当频谱块被移除时，预测性能系统性退化且混淆模式趋近于空间CNN架构。额外的分辨率鲁棒性分析进一步显示，FNO在渐进图像退化下保持最高的预测稳定性，表明比基准模型更强的精细空间细节损失容忍度。直观的频域可视化进一步支持了这一解释：代表性层状相的主导几何形态在低频截断后仍保持可识别性，并通过频谱层逐步转化为更抽象但仍有结构的内部表征。综合这些发现表明，性能提升主要归因于频率域特征学习而非模型容量或正则化差异。值得注意的是，FNO在实现这些提升的同时，使用的参数和计算复杂度远低于CNN和transformer基线，且在相同硬件条件下提供了最快的推理时间。尽管相对于优化CNN基线的性能边际在绝对项上适中，但改进是一致的、有统计支持的，并伴随增强的计算效率。结果表明，频域神经算子为沉积构造分类提供了鲁棒且高效的替代方案，特别对于韵律性层理或重复性相。未来工作应探索混合频谱-空间架构、更广泛的多盆地验证，以及结构化专家比较，以进一步评估解释一致性和泛化鲁棒性。

联系信箱：

粤ICP备09063491号

热点排行