基于Transformer与Attention增强的深度学习方法用于CBCT下颌孔（Mental Foramen, MF）分类与分割

《Journal of Imaging Informatics in Medicine》：Transformer and Attention Enhanced Deep Learning Approach for CBCT-Based Mental Foramen Classification and Segmentation

【字体：大中小】 时间：2026年06月18日 来源：Journal of Imaging Informatics in Medicine

编辑推荐：

　　确定颏孔（Mental Foramen, MF）的位置及形态学特征在牙科外科手术中具有关键的临床意义。本研究基于锥形束CT（Cone-Beam Computed Tomography, CBCT）图像，利用深度学习方法对MF进行分类与分割。研究使用了独特的人工

确定颏孔（Mental Foramen, MF）的位置及形态学特征在牙科外科手术中具有关键的临床意义。本研究基于锥形束CT（Cone-Beam Computed Tomography, CBCT）图像，利用深度学习方法对MF进行分类与分割。研究使用了独特的人工标注CBCT数据集。研究人员开发了一种融合Transformer与Attention机制的集成深度学习模型用于分类任务，并提出一种同样融合了Transformer与Attention机制的UNet结构用于分割任务。模型在包含MF解剖位置、形状和大小变异的图像上进行训练与测试。所提出的DAFNet分类模型验证集准确率达95.20%，测试集准确率达91.25%，AUC（Area Under Curve）为0.9648；而所提出的TA-UNet分割模型Dice相似系数（Dice Similarity Coefficient, DSC）达0.8804，交并比（Intersection over Union, IoU）达0.8386，性能优于传统深度学习架构。研究结果表明，MF可在CBCT图像中被高精度自动检测，且其分割可可靠完成。

论文解读：基于Transformer与Attention增强的深度学习方法用于CBCT下颌孔（Mental Foramen, MF）分类与分割

研究背景与意义

颏孔（Mental Foramen, MF）是下颌骨颊侧面的一个重要解剖结构，为下牙槽神经分支——颏神经及颏动、静脉的通道，支配下唇及下前牙区软组织感觉。在种植牙手术、局部麻醉及下颌骨相关外科操作中，精确定位MF及其是否存在副颏孔（Accessory Mental Foramen, AMF）至关重要，以避免神经损伤。既往研究多基于全景片（Panoramic Radiograph）进行MF检测，但其仅为二维重叠影像，难以真实反映三维解剖；锥形束CT（Cone-Beam Computed Tomography, CBCT）虽能提供三维视野，但MF在体数据中占比极小且易受伪影干扰，传统卷积神经网络（Convolutional Neural Network, CNN）难以充分捕捉全局上下文信息。现有文献多将MF作为下颌管（Mandibular Canal, MC）分割的附属部分，缺乏专门针对MF本身的高精度分类与分割模型，且较少引入Transformer与注意力机制（Attention Mechanism）。该研究发表于《Journal of Imaging Informatics in Medicine》，旨在填补此空白，利用Transformer与Attention增强的深度学习架构，直接在CBCT图像上实现MF异常（含AMF）分类及MF精确分割，以提升临床诊断辅助能力。

研究人员收集了土耳其?ank?r? Karatekin University口腔健康中心回顾性CBCT数据，经两名专家（一名牙髓病学专家和一名颌面放射学专家）独立筛选与标注（Kappa=0.88），最终构建包含632例MF异常（含AMF）及632例正常MF的1264张CBCT轴位切片数据集。研究提出两阶段流程：先通过DAFNet（Dense-Efficient Attention Fusion Network）二分类判断是否存在MF异常，再对判定为异常的图像通过TA-UNet（Transformer-Attention UNet）进行像素级MF分割。结果显示DAFNet验证准确率95.20%、测试准确率91.25%、AUC 0.9648；TA-UNet分割Dice系数0.8804、IoU 0.8386，显著优于基准模型，证明Transformer与Attention机制可有效提升小目标解剖结构的检测与分割性能。

主要关键技术方法

研究人员采集1264张CBCT二维切片（632例含副颏孔/异常MF，632例正常MF），由两名专家手动标注真值掩膜（Ground Truth Mask），按764/400/100划分为训练/验证/测试集，训练集做旋转、平移、缩放扩增。分类模型DAFNet：并行使用DenseNet121与EfficientNetB0提取特征，经全局平均池化（Global Average Pooling, GAP）后拼接，输入单层多头注意力（Multi-Head Attention, MHA, 4头, Key Dim=64, FFN Dim=1024）的Transformer Encoder捕获全局依赖，接通道注意力模块（Channel Attention Block, 缩减率8）强化判别特征，全连接层+Sigmoid输出二分类，损失函数为二元交叉熵（Binary Cross-Entropy），Adam优化器（lr=1×10^-4, batch=10, epoch=30）, 并采用Grad-CAM可视化决策区域。分割模型TA-UNet：以MobileNetV2为编码器，瓶颈处插入Vision Transformer (ViT) Block建模全局像素间依赖，跳跃连接（Skip Connection）加入CBAM（Convolutional Block Attention Module）沿通道与空间轴滤波低阶特征，解码器逐级上采样卷积生成分割掩膜，损失函数结合Dice与IoU，采用EarlyStopping与ReduceLROnPlateau防过拟合。两阶段模型均进行五折交叉验证（Five-Fold Cross-Validation）及统计学检验（ANOVA, paired t-test）。

研究结果

Dataset

研究人员从3000例回顾性CBCT容积中筛选出满足影像质量佳、双侧下颌前磨牙区覆盖完整、无下颌手术史及病变的1264张切片（含632异常MF/632正常MF），由两名专家独立标注并共识解决分歧（κ=0.88）。排除低分辨率、运动及金属伪影遮挡MF区、解剖覆盖不全者。CBCT参数：90 kVp, 5 mA, 0.3 mm voxel, FOV 10×8 cm。分类用图重设224×224并归一化[0,1]；分割用图重设256×256并制作二值掩膜。

Proposed Model

分类端DAFNet融合DenseNet121与EfficientNetB0双骨干网特征，经Transformer Encoder与Channel Attention精炼特征后分类。分割端TA-UNet以MobileNetV2编码、ViT Bottleneck捕获长程依赖、CBAM增强跳跃连接、标准UNet解码上采样生成MF掩膜。

Experimental Results

与七种常用迁移学习模型（DenseNet121, EfficientNetB0, InceptionV3, MobileNetV2, ResNet101, ViT-B16, Xception）对比，DAFNet取得最高验证准确率95.20%、测试准确率91.25%、AUC 0.9648、Precision 0.94、Recall 0.88、F1-Score 0.90、MCC（Matthews Correlation Coefficient）0.9012，五折交叉验证ANOVA显示组间差异显著（F=30.57, p<0.001），paired t-test证实DAFNet显著优于基线（p<0.05）。混淆矩阵显示正常类47例正确、3例误判；异常类44例正确、6例误判。Grad-CAM热力图显示模型关注区域聚焦MF解剖结构而非背景噪声。分割对比实验显示TA-UNet五折交叉验证平均Dice 0.8804±0.038、IoU 0.8386，均显著高于传统UNet（Dice 0.6763±0.037），Precision、Recall、BF₁（Boundary F1 Score）、mAP亦更优，Wilcoxon检验证实差异显著（p<0.05）。可视化显示TA-UNet预测掩膜与金标准位置和形状吻合度明显优于UNet。

Discussion（浓缩总结）

讨论指出DAFNet与TA-UNet在CBCT MF检测与分割上表现优良，CBCT较全景片更适合三维解剖显示，Transformer与Attention机制能同时捕获局部细节与全局上下文，提升小目标MF识别。DenseNet121与ResNet101具竞争力但弱于融合模型；ViT-B16因数据量有限表现欠佳。Grad-CAM验证模型关注符合临床解剖区域。局限性包括单中心较小样本、使用2D切片未充分利用3D容积信息、同患者多切片可能导致相关性偏差（建议未来患者级拆分）、设备与人群泛化需外部多中心验证。结论认为所提方法可辅助口腔科医师CBCT阅片，利于种植规划与神经损伤规避，未来拟开展多中心数据验证及临床软件部署。

Conclusion（结论翻译）

本研究探讨了在CBCT图像数据上应用融合Transformer与Attention机制的深度学习分类与分割方法对MF进行分析。各模型通过准确区分MF与非MF及在像素级精确勾画MF边界证实了有效性。研究结果表明，所建模型可被临床医生有效用于辅助CBCT图像解读，从而在牙种植方案规划、手术风险评估及预防神经损伤方面提供支持。此外，本研究的方法学成功为该类方法在临床的应用奠定了基础。未来研究将利用多中心、多CBCT设备的数据集以增强模型泛化能力，并开发用户友好型软件以实现实用化部署。

热点排行