HMC-Net：融合分层多尺度交叉注意力与可解释AI的ResNet50架构实现乳腺钼靶恶性肿瘤精准识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Oncology》：HMC-net: a ResNet fused hierarchical multi-scale cross-attention architecture for mammographic breast malignancy recognition incorporating explainable AI

【字体：大中小】 时间：2026年04月13日 来源：Frontiers in Oncology 3.3

编辑推荐：

　　本刊推荐：针对乳腺钼靶影像诊断中传统CNN难以兼顾局部细节与全局上下文、模型决策缺乏临床可解释性的痛点，研究者提出ResNet50分层多尺度交叉注意力（HMC）网络。该模型通过嵌入分层自注意力（HA1、HA2）与多尺度交叉注意力（CA23、CA34）模块，结合Grad-CAM、Grad-CAM++、Score-CAM三类可解释AI（XAI）技术，在MIAS数据集5折交叉验证中实现平均准确率0.9972（±0.05）、AUC-ROC 0.99（±0.01），显著优于ResNet50、VGG19等基线模型，为自动化乳腺诊断提供了高精度、高透明度的解决方案。

乳腺癌是全球女性最高发的恶性肿瘤之一，早期筛查是降低死亡率的关键，而乳腺钼靶（Mammography）因成本低、易普及成为临床首选筛查手段。然而，放射科医生的阅片结果高度依赖个人经验，漏诊、误诊风险始终存在——毕竟，盯着成千上万张灰度图像找微小的钙化灶或肿块，哪怕是最资深的医生也会疲劳。近年来，卷积神经网络（CNN）在医学影像分析中大放异彩，但它有个天生的短板：受限于局部感受野，难以捕捉图像的全局上下文信息，就像“管中窥豹”，容易忽略病灶与周围组织的关系。后来，Transformer架构凭借长距离依赖建模能力杀入视觉领域，但单纯堆砌层数又会引发梯度爆炸或消失，且模型越复杂，“黑箱”属性越强，医生根本不知道它凭什么判断“恶性”。如何让AI既“看得准”又“说得清”，成为乳腺辅助诊断落地的核心难题。

为此，研究团队在经典ResNet50架构基础上，创新性地嵌入分层自注意力（Hierarchical Self-Attention, HA）与多尺度交叉注意力（Multi-Scale Cross-Attention, CA）模块，构建了名为ResNet50HierarchicalMultiScaleCross-Attention（HMC-Net）的新型网络，并结合三类可解释AI（Explainable AI, XAI）技术，试图打通从“特征提取”到“临床信任”的全链路。该研究发表于《Frontiers in Oncology》，为自动化乳腺诊断树立了新标杆。

研究采用的核心技术方法包括：使用公开MIAS数据集（含322例患者的322张钼靶图像），经灰度转三通道、尺寸归一化至224×224像素及亮度对比度调整预处理；采用患者独立的5折交叉验证（k=5）评估泛化性，训练集通过随机水平翻转（50%概率）、±15°旋转生成20万张合成图像以增强鲁棒性；模型在ResNet50的Layer1后插入HA1（256通道，56×56特征图）、Layer2后插入HA2（512通道，28×28特征图）捕捉微钙化、病灶边缘等局部细节，在Layer2与Layer3间插入CA23（1024通道，14×14特征图）、Layer3与Layer4间插入CA34（2048通道，7×7特征图）融合跨尺度特征；训练采用Adam优化器（学习率0.0001）、交叉熵损失，推理阶段集成Grad-CAM、Grad-CAM++、Score-CAM生成热力图；性能通过准确率、精确率、召回率、F1分数、AUC-ROC、特异性等指标评估，并经Friedman检验与Nemenyi事后检验进行统计分析。

4.2 ResNet50分层多尺度交叉注意力网络的性能分析

通过5折交叉验证，HMC-Net的平均准确率达99.72%（±0.05），精确率98.51%（±0.13%），召回率98.99%（±0.19%），F1分数98.64%（±0.07%），AUC-ROC 0.99（±0.01），特异性99.78%（±0.09%）。与仅含分层注意力（ResNet50_Hierarchical，准确率99.53%）、仅含多尺度注意力（ResNet50_MultiScale，准确率99.41%）及基线ResNet50（准确率99.24%）相比，HMC-Net的各项指标均最优且标准差极低，证明分层与交叉注意力的协同效应显著提升了模型稳定性。混淆矩阵显示，207例正常、51例恶性病例均被正确分类，仅1例良性被误判为恶性，无恶性假阴性，彻底消除了临床最担忧的“漏诊癌症”风险。

4.3 ResNet50分层多尺度交叉注意力网络的训练与验证性能

训练过程中，准确率随epoch平稳上升，验证损失与训练损失几乎平行下降，最终测试准确率达99.72%，表明模型收敛稳定且无过拟合。学习曲线验证了HMC-Net在区分正常、良性、恶性样本时的高效性，分层注意力（HA1、HA2）聚焦局部病灶特征，交叉注意力（CA23、CA34）融合高低层级语义，共同驱动模型学习到更具判别性的特征表示。

4.4 通过XAI可视化实现可解释性

研究采用三种XAI技术生成热力图：Grad-CAM通过梯度加权类激活映射定位关键区域，适合单病灶定位但细节不足；Grad-CAM++引入高阶梯度优化，能精准标记多个微小病灶，更适合复杂医学图像；Score-CAM无需梯度计算，避免了梯度噪声干扰，生成的平滑热力图在临床场景中更稳健。定量评估显示，Score-CAM的平均交并比（IoU）达0.68，优于Grad-CAM（0.62）和Grad-CAM++（0.65），证明模型关注区域与临床标注的病灶位置高度吻合，让AI决策“有据可依”。

4.5 与现有先进方法的性能比较

对比17项既往研究，HMC-Net的99.72%准确率远超基于IRMA数据集的混合模型（80.50%）、MOD-RES模型（89.50%）、ResNet18+DenseNet161集成模型（84.01%）等，甚至优于近期基于BreakHis数据集的Xception特征融合混合模型（99.62%）和改良残差网络（99.5%），成为MIAS数据集上的新SOTA（State-of-the-Art）。

4.6 统计分析

Friedman检验得到统计量14.755、p值0.002（<0.05），证实四种模型（ResNet50、仅分层注意力、仅多尺度注意力、HMC-Net）性能存在显著差异。Nemenyi事后检验进一步显示，HMC-Net（平均秩1.10）显著优于基线ResNet50（平均秩4.00），秩差2.9超过临界差异值2.41，效应量Cohen’s d≈1.2，属于“大效应”；而仅分层注意力（秩1.90）与仅多尺度注意力（秩3.00）之间无统计学差异，说明两种注意力机制缺一不可，协同作用才能实现性能飞跃。

该研究成功将分层自注意力与多尺度交叉注意力融入ResNet50，解决了传统CNN“重局部轻全局”的痛点，同时通过三类XAI技术的互补验证，让模型的决策过程从“黑箱”变为“透明”。高达99.72%的准确率和零恶性假阴性的表现，使其在临床辅助诊断中具有极高的实用价值——既能帮助医生快速初筛，又能通过热力图提示病灶位置，减少漏诊误诊。尽管Score-CAM计算成本较高，但其在复杂注意力特征下的稳健性，为医学影像AI的可解释性研究提供了新范式。未来，通过优化Score-CAM效率、整合超声等多模态数据、在更大规模的全数字化乳腺摄影（FFDM）数据集上验证，HMC-Net有望真正走进临床，成为乳腺癌早筛的“AI守门人”。

联系信箱：

粤ICP备09063491号

4.2 ResNet50分层多尺度交叉注意力网络的性能分析

4.3 ResNet50分层多尺度交叉注意力网络的训练与验证性能

4.4 通过XAI可视化实现可解释性

4.5 与现有先进方法的性能比较

4.6 统计分析

热点排行