综述：基于视觉的Transformer架构在岩土工程中的应用——回顾与比较研究

《ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING》：Vision-Based Transformer Applications in Geotechnical Engineering - A Review and Comparative Study

【字体：大中小】 时间：2026年04月12日 来源：ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING 12.1

编辑推荐：

　　本综述系统梳理了视觉Transformer（ViT）、Swin Transformer、检测Transformer（DETR）及分割Transformer（SegFormer）等在岩土与地球科学图像任务中的应用，涵盖土壤特性推断、地质灾害监测、地下结构分析等领域，对比其与卷积神经网络（CNN）的优劣，为长程依赖建模与多尺度场景理解提供关键参考。

引言

地面材料行为及其与周围对象的相互作用在现代世界中至关重要，尤其在工业需求日益增长的背景下，岩土工程在土木、采矿、农业和测绘等行业扮演核心角色。传统图像分析方法依赖人工判断，存在假设简化多、结果因人而异的问题，关键场景下可能导致重大灾害。随着人工智能（AI）进步，机器学习（ML）早期应用于自动化任务，但深度学习方法在处理复杂非线性关系上更具潜力。

深度学习（DL）技术中，循环神经网络（RNN）和卷积神经网络（CNN）曾是计算机视觉主流方法，但其强归纳偏置（如局部性和平移不变性）限制了长程依赖和全局上下文捕捉能力。CNN依赖局部感受野和池化操作，导致深层网络空间细节丢失，对图像分辨率和宽高比变化敏感，需精细预处理才能发挥最佳性能。

2017年，Vaswani等人提出Transformer架构，最初用于自然语言处理（NLP），因自注意力机制能有效建模序列长程依赖而超越RNN模型。随着视觉Transformer（ViT）的出现，Transformer开始替代CNN在许多图像任务中表现卓越，开启了计算机视觉新方向。在岩土领域，Transformer通过将图像分割为补丁（Patch），利用自注意力计算所有补丁间权重，捕获全局依赖，解决了CNN局部性限制，特别适合岩土和地球科学中常见的复杂视觉场景。

文献概览

本文通过Scopus、Web of Science等数据库检索，筛选出139项关键研究，时间跨度为2020至2025年，显示基于Transformer的计算机视觉应用在岩土领域呈稳步增长趋势。应用分布上，“交通与民用基础设施状态评估与监测”占比最高（49项），其次是“地质灾害检测与地表监测”（36项）、“地质成像与地下材料解释”（25项）、“地下地球物理与地震结构分析”（16项）和“土壤表征与属性推断”（13项）。这种差异反映了数据可用性与任务特性的匹配度——基础设施和遥感数据更易获取且需长程空间推理，而土壤和地下数据标注成本高、数据集小，限制了Transformer的广泛采用。

计算机视觉中的Transformer架构

核心概念

Transformer由编码器和解码器组成，核心是自注意力机制（Self-Attention）。在视觉应用中，图像先被分割为固定大小的补丁，每个补丁展平为向量后通过线性嵌入投影到高维空间，形成补丁嵌入序列。为防止位置信息丢失，添加位置编码（Positional Encoding），常用正弦和余弦函数定义：

PE(pos,2i)=sin(10000d2ipos)

PE(pos,2i+1)=cos(10000d2ipos)

其中pos为元素位置，i为嵌入维度，d为嵌入总维度。

自注意力通过查询（Query, Q）、键（Key, K）和值（Value, V）矩阵计算补丁间相关性：

Attention(Q,K,V)=softmax(dkQKT)V

多头部自注意力（Multi-Head Attention, MHA）扩展此机制，使模型同时关注不同子空间的关系。

视觉Transformer（ViT）

ViT将图像分割为非重叠补丁，加入可学习分类令牌（Class Token）和位置嵌入，通过Transformer编码器堆叠MHA和多层感知机（MLP）块，最终用分类头预测结果。相比CNN，ViT从首层即可捕获全局关系，数据依赖的注意力权重自适应确定感受野，且跳跃连接影响更强，空间信息保留更完整。但ViT归纳偏置较低，需大数据预训练，计算成本和内存需求较高。

Swin Transformer

Swin Transformer引入分层结构和移位窗口机制，在局部非重叠窗口内计算自注意力，并通过交替层的窗口偏移实现跨窗口信息交互。其线性计算复杂度适应高分辨率图像，兼具局部细节与全局上下文能力，成为分类、检测和分割任务的通用骨干网络。

检测Transformer（DETR）

DETR将目标检测视为集合预测任务，用CNN提取特征后经Transformer编码器-解码器处理固定数量对象查询（Object Queries），直接预测类别和边界框。它摒弃了锚框和非极大值抑制（NMS）等手工组件，但训练收敛慢，对小物体检测性能较弱。

SegFormer

SegFormer采用分层Transformer编码器和轻量级MLP解码器，无需位置编码，改用混合前馈网络（Mix-FFN）注入位置敏感性。其多尺度特征融合能力强，参数少且计算高效，在语义分割任务中领先于许多CNN方法。

Transformer在岩土工程中的计算机视觉应用

土壤表征与属性推断

土壤特性是岩土工程设计的基础，Transformer在此领域的应用集中于光谱数据分析和剪切强度预测。Jin等人将可见-近红外（Vis-NIR）一维光谱转换为二维格拉米角差场（GADF）图像，用Swin Transformer捕捉空间关联，优于传统CNN和基础ViT模型。Tresson等人利用自监督学习（SSL）框架DINO预训练ViT，仅用RGB卫星数据和少量标注样本实现土壤属性回归，证明了无标签数据迁移学习的有效性。Wang等人的VIRM框架结合CNN局部特征提取和ViT全局建模，透明土剪切强度预测准确率达93%-94%，但需更大规模验证。

地质成像与地下材料解释

该领域包括岩相识别、钻孔图像拼接和岩石薄片分割等任务。Koeshidayatullah的FaciesViT模型首次将ViT用于岩心岩相分类，准确率最高达95%，其注意力机制能捕捉沉积模式的垂向连续性。Cao等人的CoreViT通过并行Transformer编码器和类编码器增强补丁间信息交换，提升了对断裂层理和碳酸盐涂层的识别能力。Liu等人的混合模型用Transformer+UNet分割隧道掌子面岩性，准确率超95%，实现了实时岩石强度评估。Wu等人结合ViT与弱监督多视图聚类（DMVC），仅用10%标注数据完成沉积相识别，解决了标注稀缺问题。

地质灾害与地表监测

Transformer在地质灾害检测中主要处理滑坡敏感性制图（LSM）、变形监测和土地覆盖分类。Bao等人用ViT和Swin Transformer捕捉空间因子间关系，滑坡预测曲线下面积（AUC）高于CNN和支持向量机（SVM）。Feng等人用StyleGAN2合成滑坡图像扩充数据，Transformer模型受益显著，表明数据丰富性对性能提升的关键作用。Wu的Lights-Transformer优化自注意力模块，在高分辨率遥感图像中实现高效滑坡边界检测。Xu等人用ViT作为教师模型指导轻量ResNet18学生模型（知识蒸馏），提升了遥感场景分类的泛化能力。

交通与民用基础设施状态评估

路面裂缝、隧道缺陷和铁路道床病害检测是重点应用方向。Chen等人的LeViT-192结合卷积层和Transformer阶段，路面图像分类准确率达99.17%，推理速度最快（86ms/步）。Guo等人用Swin Transformer编码器和注意力增强解码器实现像素级裂缝分割，骰子损失（Dice Loss）解决类别不平衡问题。Luo的STrans-YOLOX融合Swin注意力和CNN局部特征，复杂条件下平均精度（mAP）提升3.17%。Teng的半监督Conv-DETR利用未标注探地雷达（GPR）图像，道床缺陷检测精度比Faster R-CNN高58.6%。Rosso的ViT-L16模型在隧道GPR缺陷识别中准确率达98.10%，注意力图可突出缺陷模式。

地下地球物理与地震结构分析

地震断层检测和三维分割是Transformer的优势领域。Bomfim的TransUNet结合CNN局部特征提取和Transformer全局上下文，断层检测戴斯系数（Dice）达88.34%，优于U-Net等纯CNN模型。Wang等人的比较研究表明，ViT抗噪性强，能描绘连续大断层，而CNN擅长高频细节但假阳性多，混合模型平衡了二者优势。Li的FaultVitNet改进ViT用于三维断层分割，合成数据训练后在真实数据集上保持鲁棒性。Wang的AttentionFaultFormer集成三维CNN和Transformer，参数量仅9.62M，在断层几何捕获和空间连续性增强上表现优异。

方法论启示、优势与局限

Transformer的核心优势在于长程依赖建模和全局上下文整合，尤其适合岩土图像中不连续边界、大范围场景和多尺度特征的任务。自注意力机制动态分配权重，聚焦关键区域，而CNN的固定核难以适应复杂空间关系。然而，Transformer需要大量标注数据或强力预训练，计算成本高；在小数据集上易过拟合，需结合数据增强、迁移学习或自监督方法。此外，纯Transformer可能忽略局部纹理细节，因此CNN-Transformer混合架构成为趋势，兼顾局部特征提取与全局推理。

讨论与未来展望

当前Transformer在岩土领域的应用仍不均衡，受限于数据可用性和任务适配性。未来应优先发展：

1.
自监督与半监督学习：利用掩码自编码器（MAE）等方法减少对标注数据的依赖；
2.
领域特定预训练：构建包含岩土图像的专用数据集，替代自然图像预训练；
3.
多模态融合：整合图像、钻孔日志、传感器数据等，提升上下文理解；
4.
轻量化设计：采用MobileViT等高效变体，适配边缘设备和实时监控；
5.
可解释性增强：结合注意力可视化与物理约束，增加工程师信任度。

结论

本综述表明，基于视觉的Transformer架构已在岩土工程多个子领域展现出超越传统方法的潜力，特别是在需要全局依赖和多尺度分析的任务中。随着自监督学习、混合设计和效率优化的推进，Transformer有望成为岩土计算机视觉的核心工具，推动自动化、精准化和可解释性更强的工程解决方案。

引言