深度学习的可视化解释是否鲁棒？流行可视化解释方法在先进卷积神经网络分类任务上的统计评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Electronics》：Is the Visual Explanation of Deep Learning Robust? Statistical Evaluation of Popular Visual Explanation Methods on State-of-the-Art Convolutional Neural Networks in Classification Tasks

【字体：大中小】 时间：2026年06月10日 来源：Electronics 2.6

编辑推荐：

　　许多方法已被提出用于可视化和解释人工智能（AI）算法的结果。AI可解释性（XAI）方法在数学基础、有效性和应用范围上各不相同。鉴于此，一个重要问题随之产生：从统计角度看，它们的结果有何不同，以及在某些场景下是否某些方法比其他方法更有用？本论文旨在评估最流行AI

许多方法已被提出用于可视化和解释人工智能（AI）算法的结果。AI可解释性（XAI）方法在数学基础、有效性和应用范围上各不相同。鉴于此，一个重要问题随之产生：从统计角度看，它们的结果有何不同，以及在某些场景下是否某些方法比其他方法更有用？本论文旨在评估最流行AI模型的可解释性可视化方法的鲁棒性，并识别所得结果的差异。研究人员通过分析对来自Oxford III-T Pet数据集的598张猫图像和来自Aircraft Images数据集的580张经过筛选的波音飞机图像进行分类的基础卷积神经网络模型来实现这一目标。研究人员对基于类激活映射（CAM）、梯度和局部可解释模型无关解释（LIME）的方法之间的相似性进行了比较分析。为了评估它们，研究人员使用了皮尔逊相关系数（CC）、马修斯相关系数（MCC）、斯皮尔曼等级、结构相似性指数（SSIM）、Kullback–Leibler散度、交并比（IoU）和Soft IoU。为了检查XAI方法的保真度和鲁棒性，研究人员使用了RandomCAM并进行了消融测试，检查随着逐渐移除最不显著区域时预测置信度的下降。研究结果提供了该领域的最新广泛比较分析，可作为机器学习科学家和工程师的参考点。

**论文解读：深度学习中可视化解释的鲁棒性——基于先进卷积神经网络的统计评估**

**一、研究背景与问题**

深度卷积神经网络（CNN）在图像分类任务中表现优异，但其内部决策机制如同“黑箱”，人类难以理解。为提升透明性，可解释人工智能（XAI）方法应运而生，通过生成热力图或显著性图来突出模型关注的区域。然而，现有XAI方法在数学基础、有效性和应用范围上差异较大，其可靠性面临严峻挑战：不同方法生成的解释结果是否一致？它们是否真实反映了模型的决策逻辑？先前研究指出存在“保真度差距”，即解释往往无法完整捕捉深度架构中复杂的非线性特征交互。在高风险领域（如医疗、法律、安全），不准确的解释可能导致错误部署。因此，需要系统性地评估流行XAI方法的统计相似性和鲁棒性。本研究发表于《Electronics》，旨在填补这一空白，为机器学习从业者提供方法选择的参考。

**二、关键技术方法**

本研究使用了两个公开数据集：Oxford III-T Pet数据集（598张猫图像）和Aircraft Images数据集（580张波音飞机图像）。样本经过筛选以确保图像质量（分类置信度≥0.2）。采用五种预训练CNN架构：ResNet18、SqueezeNet、EfficientNet_b0、EfficientNet_b3和MobileNet_v3_Large。XAI方法包括七种基于类激活映射（CAM）的方法（Grad-CAM、Grad-CAM++、HiResCAM、XGrad-CAM、EigenCAM、FullGrad、RandomCAM）、三种梯度方法（SmoothGrad、Vanilla Gradient、Integrated Gradients）以及一种模型无关方法LIME。评估使用七种指标：皮尔逊相关系数（CC）、马修斯相关系数（MCC）、斯皮尔曼秩相关（SpearmanR）、结构相似性指数（SSIM）、Kullback–Leibler（KL）散度、交并比（IoU）和Soft IoU。此外，通过消融测试（逐步移除显著性区域并观察预测置信度下降）验证方法的保真度和鲁棒性。

**三、研究结果**

**基于相似性度量的结果**
图7（飞机数据集）和图8（猫数据集）显示，在CC、MCC、SpearmanR和SSIM指标上，CAM家族方法（Grad-CAM、Grad-CAM++、HiResCAM、XGrad-CAM）之间高度相似，相关值接近1；LIME和RandomCAM的相关值显著较低（SSIM除外，LIME的SSIM在0.5-0.7范围）。这表明LIME生成的解释与CAM方法存在本质差异。

**基于IoU和Soft IoU的结果**
图9（飞机）和图10（猫）展示了空间重叠度量。CAM方法在IoU上的中位数约为0.8，梯度方法在0.4-0.6之间，LIME的IoU中位数约为0.35（Soft IoU类似）。这说明CAM方法聚焦的区域高度一致，而LIME的结果更为分散。

**基于KL散度的结果**
图11（猫）和图12（飞机）显示，LIME的KL散度远高于其他方法（猫数据集约10，飞机数据集约2），表明其分布差异最大。梯度方法在飞机数据集上也表现出较高散度（5-10），而CAM方法散度普遍低于1。

**基于平均分类下降的结果**
表7和图14展示消融测试结果：FullGrad的平均分类下降最小（接近0），而LIME的下降最大（超过0.2），甚至高于随机基线RandomCAM，这证实LIME的解释保真度较低。不同模型对比（表8）显示EfficientNet_b0的分类下降仅为SqueezeNet的约1/3，说明现代化轻量级架构的解释更稳定。

**单个模型内的分布（图13）**
以ResNet18为例，KL散度箱线图再次凸显LIME的离群特性，梯度方法及XGrad-CAM的散度在较小范围内波动。

**四、讨论与结论**

讨论部分指出：CAM方法（尤其是Grad-CAM、Grad-CAM++、HiResCAM）在统计和结构上高度一致，可视为冗余方法；LIME虽然提供模型无关的视角，但其高计算成本、低空间重叠和高KL散度使其在审计场景中实用性不足。EigenCAM因其类无关特性表现独特；FullGrad凭借整合全网络偏置的机制成为保真度最高的方法。研究还揭示了模型架构对解释鲁棒性的显著影响：EfficientNet_b0的解释比SqueezeNet更可靠。

研究结论翻译如下：基于这些结果，可回应两个研究问题：（1）XAI方法是否有效？——研究证实，这些方法确实能够有效可视化黑箱决策过程，其定位具有非随机性和可靠信号。（2）不同XAI方法的结果之间是否存在统计相关性？——通过多种度量，研究表明部分方法（如CAM家族）具有冗余性，而其他方法（如LIME）则提供独特且有价值的视角。本研究为分类任务中深度神经网络的可解释性技术选择提供了坚实基础，识别出可互换的方法，有望显著降低未来研究的计算开销。计算均采用广泛可获取的软件方案，无需专门硬件或高性能资源，确保了完全的可重复性和未来研究的可扩展性。

联系信箱：

粤ICP备09063491号

热点排行