《ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING》:Vision-Based Transformer Applications in Geotechnical Engineering - A Review and Comparative Study
编辑推荐:
本综述系统梳理了视觉Transformer(ViT)、Swin Transformer、检测Transformer(DETR)及分割Transformer(SegFormer)等在岩土与地球科学图像任务中的应用,涵盖土壤特性推断、地质灾害监测、地下结构分析等领域,对比其与卷积神经网络(CNN)的优劣,为长程依赖建模与多尺度场景理解提供关键参考。
引言
地面材料行为及其与周围对象的相互作用在现代世界中至关重要,尤其在工业需求日益增长的背景下,岩土工程在土木、采矿、农业和测绘等行业扮演核心角色。传统图像分析方法依赖人工判断,存在假设简化多、结果因人而异的问题,关键场景下可能导致重大灾害。随着人工智能(AI)进步,机器学习(ML)早期应用于自动化任务,但深度学习方法在处理复杂非线性关系上更具潜力。
深度学习(DL)技术中,循环神经网络(RNN)和卷积神经网络(CNN)曾是计算机视觉主流方法,但其强归纳偏置(如局部性和平移不变性)限制了长程依赖和全局上下文捕捉能力。CNN依赖局部感受野和池化操作,导致深层网络空间细节丢失,对图像分辨率和宽高比变化敏感,需精细预处理才能发挥最佳性能。
2017年,Vaswani等人提出Transformer架构,最初用于自然语言处理(NLP),因自注意力机制能有效建模序列长程依赖而超越RNN模型。随着视觉Transformer(ViT)的出现,Transformer开始替代CNN在许多图像任务中表现卓越,开启了计算机视觉新方向。在岩土领域,Transformer通过将图像分割为补丁(Patch),利用自注意力计算所有补丁间权重,捕获全局依赖,解决了CNN局部性限制,特别适合岩土和地球科学中常见的复杂视觉场景。
文献概览
本文通过Scopus、Web of Science等数据库检索,筛选出139项关键研究,时间跨度为2020至2025年,显示基于Transformer的计算机视觉应用在岩土领域呈稳步增长趋势。应用分布上,“交通与民用基础设施状态评估与监测”占比最高(49项),其次是“地质灾害检测与地表监测”(36项)、“地质成像与地下材料解释”(25项)、“地下地球物理与地震结构分析”(16项)和“土壤表征与属性推断”(13项)。这种差异反映了数据可用性与任务特性的匹配度——基础设施和遥感数据更易获取且需长程空间推理,而土壤和地下数据标注成本高、数据集小,限制了Transformer的广泛采用。
计算机视觉中的Transformer架构
核心概念
Transformer由编码器和解码器组成,核心是自注意力机制 (Self-Attention)。在视觉应用中,图像先被分割为固定大小的补丁,每个补丁展平为向量后通过线性嵌入投影到高维空间,形成补丁嵌入序列。为防止位置信息丢失,添加位置编码 (Positional Encoding),常用正弦和余弦函数定义:
PE ( p os , 2 i ) = sin ( 1000 0 d 2 i p os ) PE ( p os , 2 i + 1 ) = cos ( 1000 0 d 2 i p os ) 其中p os 为元素位置,i 为嵌入维度,d 为嵌入总维度。
自注意力通过查询(Query, Q )、键(Key, K )和值(Value, V )矩阵计算补丁间相关性:
Attention ( Q , K , V ) = softmax ( d k Q K T ) V 多头部自注意力(Multi-Head Attention, MHA)扩展此机制,使模型同时关注不同子空间的关系。
视觉Transformer(ViT)
ViT将图像分割为非重叠补丁,加入可学习分类令牌(Class Token)和位置嵌入,通过Transformer编码器堆叠MHA和多层感知机(MLP)块,最终用分类头预测结果。相比CNN,ViT从首层即可捕获全局关系,数据依赖的注意力权重自适应确定感受野,且跳跃连接影响更强,空间信息保留更完整。但ViT归纳偏置较低,需大数据预训练,计算成本和内存需求较高。
Swin Transformer
Swin Transformer引入分层结构 和移位窗口机制 ,在局部非重叠窗口内计算自注意力,并通过交替层的窗口偏移实现跨窗口信息交互。其线性计算复杂度适应高分辨率图像,兼具局部细节与全局上下文能力,成为分类、检测和分割任务的通用骨干网络。
检测Transformer(DETR)
DETR将目标检测视为集合预测任务,用CNN提取特征后经Transformer编码器-解码器处理固定数量对象查询(Object Queries),直接预测类别和边界框。它摒弃了锚框和非极大值抑制(NMS)等手工组件,但训练收敛慢,对小物体检测性能较弱。
SegFormer
SegFormer采用分层Transformer编码器和轻量级MLP解码器,无需位置编码,改用混合前馈网络(Mix-FFN)注入位置敏感性。其多尺度特征融合能力强,参数少且计算高效,在语义分割任务中领先于许多CNN方法。
Transformer在岩土工程中的计算机视觉应用
土壤表征与属性推断
土壤特性是岩土工程设计的基础,Transformer在此领域的应用集中于光谱数据分析和剪切强度预测。Jin等人将可见-近红外(Vis-NIR)一维光谱转换为二维格拉米角差场(GADF)图像,用Swin Transformer捕捉空间关联,优于传统CNN和基础ViT模型。Tresson等人利用自监督学习(SSL)框架DINO预训练ViT,仅用RGB卫星数据和少量标注样本实现土壤属性回归,证明了无标签数据迁移学习的有效性。Wang等人的VIRM框架结合CNN局部特征提取和ViT全局建模,透明土剪切强度预测准确率达93%-94%,但需更大规模验证。
地质成像与地下材料解释
该领域包括岩相识别、钻孔图像拼接和岩石薄片分割等任务。Koeshidayatullah的FaciesViT模型首次将ViT用于岩心岩相分类,准确率最高达95%,其注意力机制能捕捉沉积模式的垂向连续性。Cao等人的CoreViT通过并行Transformer编码器和类编码器增强补丁间信息交换,提升了对断裂层理和碳酸盐涂层的识别能力。Liu等人的混合模型用Transformer+UNet分割隧道掌子面岩性,准确率超95%,实现了实时岩石强度评估。Wu等人结合ViT与弱监督多视图聚类(DMVC),仅用10%标注数据完成沉积相识别,解决了标注稀缺问题。
地质灾害与地表监测
Transformer在地质灾害检测中主要处理滑坡敏感性制图(LSM)、变形监测和土地覆盖分类。Bao等人用ViT和Swin Transformer捕捉空间因子间关系,滑坡预测曲线下面积(AUC)高于CNN和支持向量机(SVM)。Feng等人用StyleGAN2合成滑坡图像扩充数据,Transformer模型受益显著,表明数据丰富性对性能提升的关键作用。Wu的Lights-Transformer优化自注意力模块,在高分辨率遥感图像中实现高效滑坡边界检测。Xu等人用ViT作为教师模型指导轻量ResNet18学生模型(知识蒸馏),提升了遥感场景分类的泛化能力。
交通与民用基础设施状态评估
路面裂缝、隧道缺陷和铁路道床病害检测是重点应用方向。Chen等人的LeViT-192结合卷积层和Transformer阶段,路面图像分类准确率达99.17%,推理速度最快(86ms/步)。Guo等人用Swin Transformer编码器和注意力增强解码器实现像素级裂缝分割,骰子损失(Dice Loss)解决类别不平衡问题。Luo的STrans-YOLOX融合Swin注意力和CNN局部特征,复杂条件下平均精度(mAP)提升3.17%。Teng的半监督Conv-DETR利用未标注探地雷达(GPR)图像,道床缺陷检测精度比Faster R-CNN高58.6%。Rosso的ViT-L16模型在隧道GPR缺陷识别中准确率达98.10%,注意力图可突出缺陷模式。
地下地球物理与地震结构分析
地震断层检测和三维分割是Transformer的优势领域。Bomfim的TransUNet结合CNN局部特征提取和Transformer全局上下文,断层检测戴斯系数(Dice)达88.34%,优于U-Net等纯CNN模型。Wang等人的比较研究表明,ViT抗噪性强,能描绘连续大断层,而CNN擅长高频细节但假阳性多,混合模型平衡了二者优势。Li的FaultVitNet改进ViT用于三维断层分割,合成数据训练后在真实数据集上保持鲁棒性。Wang的AttentionFaultFormer集成三维CNN和Transformer,参数量仅9.62M,在断层几何捕获和空间连续性增强上表现优异。
方法论启示、优势与局限
Transformer的核心优势在于长程依赖建模 和全局上下文整合 ,尤其适合岩土图像中不连续边界、大范围场景和多尺度特征的任务。自注意力机制动态分配权重,聚焦关键区域,而CNN的固定核难以适应复杂空间关系。然而,Transformer需要大量标注数据或强力预训练,计算成本高;在小数据集上易过拟合,需结合数据增强、迁移学习或自监督方法。此外,纯Transformer可能忽略局部纹理细节,因此CNN-Transformer混合架构 成为趋势,兼顾局部特征提取与全局推理。
讨论与未来展望
当前Transformer在岩土领域的应用仍不均衡,受限于数据可用性和任务适配性。未来应优先发展:
1. 自监督与半监督学习 :利用掩码自编码器(MAE)等方法减少对标注数据的依赖;
2. 领域特定预训练 :构建包含岩土图像的专用数据集,替代自然图像预训练;
3. 多模态融合 :整合图像、钻孔日志、传感器数据等,提升上下文理解;
4. 轻量化设计 :采用MobileViT等高效变体,适配边缘设备和实时监控;
5. 可解释性增强 :结合注意力可视化与物理约束,增加工程师信任度。
结论
本综述表明,基于视觉的Transformer架构已在岩土工程多个子领域展现出超越传统方法的潜力,特别是在需要全局依赖和多尺度分析的任务中。随着自监督学习、混合设计和效率优化的推进,Transformer有望成为岩土计算机视觉的核心工具,推动自动化、精准化和可解释性更强的工程解决方案。