《Journal of Imaging Informatics in Medicine》:Transformer and Attention Enhanced Deep Learning Approach for CBCT-Based Mental Foramen Classification and Segmentation
编辑推荐:
确定颏孔(Mental Foramen, MF)的位置及形态学特征在牙科外科手术中具有关键的临床意义。本研究基于锥形束CT(Cone-Beam Computed Tomography, CBCT)图像,利用深度学习方法对MF进行分类与分割。研究使用了独特的人工
确定颏孔(Mental Foramen, MF)的位置及形态学特征在牙科外科手术中具有关键的临床意义。本研究基于锥形束CT(Cone-Beam Computed Tomography, CBCT)图像,利用深度学习方法对MF进行分类与分割。研究使用了独特的人工标注CBCT数据集。研究人员开发了一种融合Transformer与Attention机制的集成深度学习模型用于分类任务,并提出一种同样融合了Transformer与Attention机制的UNet结构用于分割任务。模型在包含MF解剖位置、形状和大小变异的图像上进行训练与测试。所提出的DAFNet分类模型验证集准确率达95.20%,测试集准确率达91.25%,AUC(Area Under Curve)为0.9648;而所提出的TA-UNet分割模型Dice相似系数(Dice Similarity Coefficient, DSC)达0.8804,交并比(Intersection over Union, IoU)达0.8386,性能优于传统深度学习架构。研究结果表明,MF可在CBCT图像中被高精度自动检测,且其分割可可靠完成。
论文解读:基于Transformer与Attention增强的深度学习方法用于CBCT下颌孔(Mental Foramen, MF)分类与分割
研究背景与意义
颏孔(Mental Foramen, MF)是下颌骨颊侧面的一个重要解剖结构,为下牙槽神经分支——颏神经及颏动、静脉的通道,支配下唇及下前牙区软组织感觉。在种植牙手术、局部麻醉及下颌骨相关外科操作中,精确定位MF及其是否存在副颏孔(Accessory Mental Foramen, AMF)至关重要,以避免神经损伤。既往研究多基于全景片(Panoramic Radiograph)进行MF检测,但其仅为二维重叠影像,难以真实反映三维解剖;锥形束CT(Cone-Beam Computed Tomography, CBCT)虽能提供三维视野,但MF在体数据中占比极小且易受伪影干扰,传统卷积神经网络(Convolutional Neural Network, CNN)难以充分捕捉全局上下文信息。现有文献多将MF作为下颌管(Mandibular Canal, MC)分割的附属部分,缺乏专门针对MF本身的高精度分类与分割模型,且较少引入Transformer与注意力机制(Attention Mechanism)。该研究发表于《Journal of Imaging Informatics in Medicine》,旨在填补此空白,利用Transformer与Attention增强的深度学习架构,直接在CBCT图像上实现MF异常(含AMF)分类及MF精确分割,以提升临床诊断辅助能力。
研究人员收集了土耳其?ank?r? Karatekin University口腔健康中心回顾性CBCT数据,经两名专家(一名牙髓病学专家和一名颌面放射学专家)独立筛选与标注(Kappa=0.88),最终构建包含632例MF异常(含AMF)及632例正常MF的1264张CBCT轴位切片数据集。研究提出两阶段流程:先通过DAFNet(Dense-Efficient Attention Fusion Network)二分类判断是否存在MF异常,再对判定为异常的图像通过TA-UNet(Transformer-Attention UNet)进行像素级MF分割。结果显示DAFNet验证准确率95.20%、测试准确率91.25%、AUC 0.9648;TA-UNet分割Dice系数0.8804、IoU 0.8386,显著优于基准模型,证明Transformer与Attention机制可有效提升小目标解剖结构的检测与分割性能。
主要关键技术方法
研究人员采集1264张CBCT二维切片(632例含副颏孔/异常MF,632例正常MF),由两名专家手动标注真值掩膜(Ground Truth Mask),按764/400/100划分为训练/验证/测试集,训练集做旋转、平移、缩放扩增。分类模型DAFNet:并行使用DenseNet121与EfficientNetB0提取特征,经全局平均池化(Global Average Pooling, GAP)后拼接,输入单层多头注意力(Multi-Head Attention, MHA, 4头, Key Dim=64, FFN Dim=1024)的Transformer Encoder捕获全局依赖,接通道注意力模块(Channel Attention Block, 缩减率8)强化判别特征,全连接层+Sigmoid输出二分类,损失函数为二元交叉熵(Binary Cross-Entropy),Adam优化器(lr=1×10-4, batch=10, epoch=30), 并采用Grad-CAM可视化决策区域。分割模型TA-UNet:以MobileNetV2为编码器,瓶颈处插入Vision Transformer (ViT) Block建模全局像素间依赖,跳跃连接(Skip Connection)加入CBAM(Convolutional Block Attention Module)沿通道与空间轴滤波低阶特征,解码器逐级上采样卷积生成分割掩膜,损失函数结合Dice与IoU,采用EarlyStopping与ReduceLROnPlateau防过拟合。两阶段模型均进行五折交叉验证(Five-Fold Cross-Validation)及统计学检验(ANOVA, paired t-test)。
研究结果
Dataset
研究人员从3000例回顾性CBCT容积中筛选出满足影像质量佳、双侧下颌前磨牙区覆盖完整、无下颌手术史及病变的1264张切片(含632异常MF/632正常MF),由两名专家独立标注并共识解决分歧(κ=0.88)。排除低分辨率、运动及金属伪影遮挡MF区、解剖覆盖不全者。CBCT参数:90 kVp, 5 mA, 0.3 mm voxel, FOV 10×8 cm。分类用图重设224×224并归一化[0,1];分割用图重设256×256并制作二值掩膜。
Proposed Model
分类端DAFNet融合DenseNet121与EfficientNetB0双骨干网特征,经Transformer Encoder与Channel Attention精炼特征后分类。分割端TA-UNet以MobileNetV2编码、ViT Bottleneck捕获长程依赖、CBAM增强跳跃连接、标准UNet解码上采样生成MF掩膜。
Experimental Results
与七种常用迁移学习模型(DenseNet121, EfficientNetB0, InceptionV3, MobileNetV2, ResNet101, ViT-B16, Xception)对比,DAFNet取得最高验证准确率95.20%、测试准确率91.25%、AUC 0.9648、Precision 0.94、Recall 0.88、F1-Score 0.90、MCC(Matthews Correlation Coefficient)0.9012,五折交叉验证ANOVA显示组间差异显著(F=30.57, p<0.001),paired t-test证实DAFNet显著优于基线(p<0.05)。混淆矩阵显示正常类47例正确、3例误判;异常类44例正确、6例误判。Grad-CAM热力图显示模型关注区域聚焦MF解剖结构而非背景噪声。分割对比实验显示TA-UNet五折交叉验证平均Dice 0.8804±0.038、IoU 0.8386,均显著高于传统UNet(Dice 0.6763±0.037),Precision、Recall、BF1(Boundary F1 Score)、mAP亦更优,Wilcoxon检验证实差异显著(p<0.05)。可视化显示TA-UNet预测掩膜与金标准位置和形状吻合度明显优于UNet。
Discussion(浓缩总结)
讨论指出DAFNet与TA-UNet在CBCT MF检测与分割上表现优良,CBCT较全景片更适合三维解剖显示,Transformer与Attention机制能同时捕获局部细节与全局上下文,提升小目标MF识别。DenseNet121与ResNet101具竞争力但弱于融合模型;ViT-B16因数据量有限表现欠佳。Grad-CAM验证模型关注符合临床解剖区域。局限性包括单中心较小样本、使用2D切片未充分利用3D容积信息、同患者多切片可能导致相关性偏差(建议未来患者级拆分)、设备与人群泛化需外部多中心验证。结论认为所提方法可辅助口腔科医师CBCT阅片,利于种植规划与神经损伤规避,未来拟开展多中心数据验证及临床软件部署。
Conclusion(结论翻译)
本研究探讨了在CBCT图像数据上应用融合Transformer与Attention机制的深度学习分类与分割方法对MF进行分析。各模型通过准确区分MF与非MF及在像素级精确勾画MF边界证实了有效性。研究结果表明,所建模型可被临床医生有效用于辅助CBCT图像解读,从而在牙种植方案规划、手术风险评估及预防神经损伤方面提供支持。此外,本研究的方法学成功为该类方法在临床的应用奠定了基础。未来研究将利用多中心、多CBCT设备的数据集以增强模型泛化能力,并开发用户友好型软件以实现实用化部署。