《Frontiers in Oncology》:HMC-net: a ResNet fused hierarchical multi-scale cross-attention architecture for mammographic breast malignancy recognition incorporating explainable AI
编辑推荐:
本刊推荐:针对乳腺钼靶影像诊断中传统CNN难以兼顾局部细节与全局上下文、模型决策缺乏临床可解释性的痛点,研究者提出ResNet50分层多尺度交叉注意力(HMC)网络。该模型通过嵌入分层自注意力(HA1、HA2)与多尺度交叉注意力(CA23、CA34)模块,结合Grad-CAM、Grad-CAM++、Score-CAM三类可解释AI(XAI)技术,在MIAS数据集5折交叉验证中实现平均准确率0.9972(±0.05)、AUC-ROC 0.99(±0.01),显著优于ResNet50、VGG19等基线模型,为自动化乳腺诊断提供了高精度、高透明度的解决方案。
乳腺癌是全球女性最高发的恶性肿瘤之一,早期筛查是降低死亡率的关键,而乳腺钼靶(Mammography)因成本低、易普及成为临床首选筛查手段。然而,放射科医生的阅片结果高度依赖个人经验,漏诊、误诊风险始终存在——毕竟,盯着成千上万张灰度图像找微小的钙化灶或肿块,哪怕是最资深的医生也会疲劳。近年来,卷积神经网络(CNN)在医学影像分析中大放异彩,但它有个天生的短板:受限于局部感受野,难以捕捉图像的全局上下文信息,就像“管中窥豹”,容易忽略病灶与周围组织的关系。后来,Transformer架构凭借长距离依赖建模能力杀入视觉领域,但单纯堆砌层数又会引发梯度爆炸或消失,且模型越复杂,“黑箱”属性越强,医生根本不知道它凭什么判断“恶性”。如何让AI既“看得准”又“说得清”,成为乳腺辅助诊断落地的核心难题。
为此,研究团队在经典ResNet50架构基础上,创新性地嵌入分层自注意力(Hierarchical Self-Attention, HA)与多尺度交叉注意力(Multi-Scale Cross-Attention, CA)模块,构建了名为ResNet50HierarchicalMultiScaleCross-Attention(HMC-Net)的新型网络,并结合三类可解释AI(Explainable AI, XAI)技术,试图打通从“特征提取”到“临床信任”的全链路。该研究发表于《Frontiers in Oncology》,为自动化乳腺诊断树立了新标杆。
研究采用的核心技术方法包括:使用公开MIAS数据集(含322例患者的322张钼靶图像),经灰度转三通道、尺寸归一化至224×224像素及亮度对比度调整预处理;采用患者独立的5折交叉验证(k=5)评估泛化性,训练集通过随机水平翻转(50%概率)、±15°旋转生成20万张合成图像以增强鲁棒性;模型在ResNet50的Layer1后插入HA1(256通道,56×56特征图)、Layer2后插入HA2(512通道,28×28特征图)捕捉微钙化、病灶边缘等局部细节,在Layer2与Layer3间插入CA23(1024通道,14×14特征图)、Layer3与Layer4间插入CA34(2048通道,7×7特征图)融合跨尺度特征;训练采用Adam优化器(学习率0.0001)、交叉熵损失,推理阶段集成Grad-CAM、Grad-CAM++、Score-CAM生成热力图;性能通过准确率、精确率、召回率、F1分数、AUC-ROC、特异性等指标评估,并经Friedman检验与Nemenyi事后检验进行统计分析。
4.2 ResNet50分层多尺度交叉注意力网络的性能分析
通过5折交叉验证,HMC-Net的平均准确率达99.72%(±0.05),精确率98.51%(±0.13%),召回率98.99%(±0.19%),F1分数98.64%(±0.07%),AUC-ROC 0.99(±0.01),特异性99.78%(±0.09%)。与仅含分层注意力(ResNet50_Hierarchical,准确率99.53%)、仅含多尺度注意力(ResNet50_MultiScale,准确率99.41%)及基线ResNet50(准确率99.24%)相比,HMC-Net的各项指标均最优且标准差极低,证明分层与交叉注意力的协同效应显著提升了模型稳定性。混淆矩阵显示,207例正常、51例恶性病例均被正确分类,仅1例良性被误判为恶性,无恶性假阴性,彻底消除了临床最担忧的“漏诊癌症”风险。
4.3 ResNet50分层多尺度交叉注意力网络的训练与验证性能
训练过程中,准确率随epoch平稳上升,验证损失与训练损失几乎平行下降,最终测试准确率达99.72%,表明模型收敛稳定且无过拟合。学习曲线验证了HMC-Net在区分正常、良性、恶性样本时的高效性,分层注意力(HA1、HA2)聚焦局部病灶特征,交叉注意力(CA23、CA34)融合高低层级语义,共同驱动模型学习到更具判别性的特征表示。
4.4 通过XAI可视化实现可解释性
研究采用三种XAI技术生成热力图:Grad-CAM通过梯度加权类激活映射定位关键区域,适合单病灶定位但细节不足;Grad-CAM++引入高阶梯度优化,能精准标记多个微小病灶,更适合复杂医学图像;Score-CAM无需梯度计算,避免了梯度噪声干扰,生成的平滑热力图在临床场景中更稳健。定量评估显示,Score-CAM的平均交并比(IoU)达0.68,优于Grad-CAM(0.62)和Grad-CAM++(0.65),证明模型关注区域与临床标注的病灶位置高度吻合,让AI决策“有据可依”。
4.5 与现有先进方法的性能比较
对比17项既往研究,HMC-Net的99.72%准确率远超基于IRMA数据集的混合模型(80.50%)、MOD-RES模型(89.50%)、ResNet18+DenseNet161集成模型(84.01%)等,甚至优于近期基于BreakHis数据集的Xception特征融合混合模型(99.62%)和改良残差网络(99.5%),成为MIAS数据集上的新SOTA(State-of-the-Art)。
4.6 统计分析
Friedman检验得到统计量14.755、p值0.002(<0.05),证实四种模型(ResNet50、仅分层注意力、仅多尺度注意力、HMC-Net)性能存在显著差异。Nemenyi事后检验进一步显示,HMC-Net(平均秩1.10)显著优于基线ResNet50(平均秩4.00),秩差2.9超过临界差异值2.41,效应量Cohen’s d≈1.2,属于“大效应”;而仅分层注意力(秩1.90)与仅多尺度注意力(秩3.00)之间无统计学差异,说明两种注意力机制缺一不可,协同作用才能实现性能飞跃。
该研究成功将分层自注意力与多尺度交叉注意力融入ResNet50,解决了传统CNN“重局部轻全局”的痛点,同时通过三类XAI技术的互补验证,让模型的决策过程从“黑箱”变为“透明”。高达99.72%的准确率和零恶性假阴性的表现,使其在临床辅助诊断中具有极高的实用价值——既能帮助医生快速初筛,又能通过热力图提示病灶位置,减少漏诊误诊。尽管Score-CAM计算成本较高,但其在复杂注意力特征下的稳健性,为医学影像AI的可解释性研究提供了新范式。未来,通过优化Score-CAM效率、整合超声等多模态数据、在更大规模的全数字化乳腺摄影(FFDM)数据集上验证,HMC-Net有望真正走进临床,成为乳腺癌早筛的“AI守门人”。