Shapley加性解释:用于分类模型中类别差异的局部可解释性
《Advanced Intelligent Systems》:Shapley Additive Explanation for Local Class Differentiation: Local Explainability for Class Differentiation in Classification Models
【字体:
大
中
小
】
时间:2026年04月24日
来源:Advanced Intelligent Systems 6.1
编辑推荐:
摘要
可解释的人工智能(XAI)旨在为机器学习模型提供透明度,使用户能够理解预测是如何以及为何产生的。在XAI技术中,Shapley加性解释(SHAP)被广泛用于通过根据特征对模型输出的贡献对其进行排序来提供全局和局部解释。然而,传统的基于SHAP的方法主要强调全局解释,并没有
摘要
可解释的人工智能(XAI)旨在为机器学习模型提供透明度,使用户能够理解预测是如何以及为何产生的。在XAI技术中,Shapley加性解释(SHAP)被广泛用于通过根据特征对模型输出的贡献对其进行排序来提供全局和局部解释。然而,传统的基于SHAP的方法主要强调全局解释,并没有明确显示单个特征在局部层面如何区分两个特定类别。本研究引入了SHAP-LCD(用于局部类别区分的SHAP),这是一种新颖的局部可解释性方法,它在类别概率的变化与基于SHAP的特征贡献之间建立了数学关系。这种关联允许详细分析特征如何在分类模型中驱动类别区分。该方法在多个表格数据集上进行了评估,包括Iris、Wine和Vehicle Silhouettes数据集,通过密度图比较SHAP值和特征分布。它还被应用于一个图像数据集(Fashion-MNIST),其中热图标识出负责区分类别的像素。结果表明,较大的类别概率差异对应于明显分离的特征分布,而较小的概率差异则与重叠的分布相对应,表明分类难度更大。总体而言,SHAP-LCD提供了一个一致且与模型无关的工具,可用于解释表格和图像领域中的类别区分。
1 引言
人工智能(AI)是计算机科学的一个分支,专注于开发和设计能够展示智能行为的系统。然而,基于大量原始数据构建的高级AI模型往往像“黑箱”一样运行,其预测背后的逻辑过程难以解释和理解。这种缺乏透明度的情况限制了对其结果的完全信任,因为未检测到的错误可能会导致严重后果,特别是在医学、安全或自动决策等关键应用中[1]。面对这一挑战,可解释的人工智能(XAI)应运而生,其主要目标是开发能够解释和说明黑箱模型生成预测的技术和方法。XAI有助于更好地理解AI算法的行为,并在其做出意外决策的情境下证明其结果的合理性。此外,由于有可验证的程序支持,这些决策获得了更大的透明度并增强了信任。除了证明合理性之外,XAI还有助于早期发现AI模型中的错误和漏洞,从而能够在不那么关键的情况下及时进行修正[2]。一些解释方法专注于分析和描述机器学习(ML)和深度学习(DL)模型的内部运作和决策[3]。其他方法被称为事后解释方法,它们与当前的ML/DL算法兼容[4]。这些解释方法共同致力于解释模型决策,回答了为何做出特定决策这一基本问题[5]。其中一种解释方法是基于Shapley加性解释(SHAP),它通过量化特征的个别贡献来提供关于模型预测的详细信息,为模型实例提供全局和局部解释[6, 7]。SHAP是一种事后且与模型无关的解释器,这意味着它不分析模型的内部结构。它可以应用于已经训练好的模型来分析其预测,而无需修改其结构或输入数据。这种灵活性使其适用于各种ML模型,从线性回归到深度神经网络[8]。此外,它生成的解释值量化了每个特征对模型预测的贡献,并且这些值可以可视化表示以便于解释[9]。先前的研究已经展示了诸如SHAP之类的解释技术在 various 领域中的实用性。在医学领域,SHAP被用于解释医学分类模型中的预测,以改进心房颤动(AF)的早期诊断[10]。在自然科学领域,该方法被应用于理解环境变量在预测物种存在方面的作用,无论是全局还是特定地点[11]。在经济学和金融领域,作者展示了如何使用SHAP值来解释ML模型的结果,特别是在直销公司的需求预测中[12]。另一方面,在金融系统中,SHAP被用于理解特征如何影响欺诈检测[13]。研究人员实施了SHAP来计算特征对模型输出的贡献;然而,据我们所知,很少有方法能够明确地理解这些特征如何影响将实例分类到某个类别中(局部解释)。换句话说,SHAP通常用于解释特征对整体模型预测的影响,但它并没有阐明哪些特征对于区分不同类别是关键,这在需要理解哪些因素导致特定类别差异的分类问题中是根本性的。例如,在一个用于诊断疾病的分类模型中,SHAP可能表明“血糖水平”特征对模型预测有较高的贡献。然而,它并没有针对特定实例解释该特征对于区分1型糖尿病和2型糖尿病或1型糖尿病与非糖尿病状态哪个更重要。基于以上内容,本研究提出了以下贡献:建立了一个数学框架,将实例属于某个类别的概率变化与特征的Shapley值联系起来,从而允许在两个类别之间的分类模型中详细比较特征的个别贡献。因此,提出了SHAP-LCD(用于局部类别区分的SHAP)作为一种分析工具,可以用来解释任何分类模型(一种局部的、与模型无关的XAI分析工具),而不依赖于数据领域。文章的结构如下:第2节介绍先前的工作;第3节描述所提出的模型;第4节介绍案例研究;第5节分析方法的计算复杂性;第6节发展讨论和结果;最后,第7节提出研究领域的结论和未来工作。
2 先前的工作
一些先前的研究试图确定特征对分类问题中模型预测的贡献,这在AI技术中是基本的,因为它允许预测给定观测值属于哪个类别或分类。SHAP已在多个分类任务中得到应用,以识别有影响力的特征。在使用RNA-Seq数据进行癌症分类时,SHAP帮助解释了ML模型并选出了影响预测的相关基因[14]。在地震概率分配中,SHAP被用来对输入参数进行分类,并解释人工神经网络和随机森林,识别出关键因素,如震中距离和深度密度[15]。在制药领域,Rodríguez-Pérez和Bajorath[16]在预测化合物活性和效力的背景下应用并评估了SHAP方法,这是药物发现的一个关键领域。另一方面,[17]中的作者提出了SHAP的一个扩展版本G-SHAP,它解决了更广泛的问题,如多个类别之间的比较、组间差异和模型失败分析。G-SHAP解释了一组实例为何属于一个类别而不是另一个类别,为什么不同的人口群体会得到不同的预测,以及为什么模型在某些情况下会失败。为此,它计算函数g(f)上的Shapley值,该函数代表类别、组或误差度量之间的差异,而不是直接将其应用于模型输出。尽管G-SHAP在多类别比较的背景下解释了一组实例为何属于一个类别而不是另一个类别,但它并没有建立特征的确切贡献与两个类别之间的概率差异之间的直接关系——这将允许识别每个属性对类别对的具体贡献。文献报道了多种可解释性方法,例如LIME(局部可解释的模型无关解释)、Grad-CAM(梯度加权类别激活映射)和部分依赖图(PDP),这些方法已被用于在各种情境下分析类别区分[18-22]。同样,反事实解释[23]旨在识别输入变量的最小变化,这些变化将修改预测或允许不同的结果[24]。总的来说,这些方法为理解特征如何影响分类提供了有价值的证据;然而,仍然没有正式的框架将类别概率的变化与特征贡献的差异联系起来。一方面,它们使得在局部和全局层面量化变量重要性成为可能,生成反事实,并将属性的变化与类别成员概率的变化联系起来——所有这些都增强了分类模型的解释。另一方面,仍存在一个空白:缺乏一个在实例层面明确将类别概率差异与特征贡献差异联系起来的数学框架。因此,本文提出了以下研究问题:如何建立一个基于SHAP的特征贡献与两个类别之间差异之间的直接关系,以便识别每个属性对两个类别之间差异的具体贡献?
3 提出的模型
为了回答提出的研究问题,我们转向了一种流行且数学基础坚实的解释技术:SHAP。SHAP方法部分基于L.S. Shapley在1951年首次引入的Shapley值理论[25]。Shapley值为联盟游戏中的每个参与者提供一个公平或合理的奖励分配解决方案,并构成了具有以下自然属性或公理的独特结果:
1. 局部准确性(可加性):分配的值准确反映了与联合预测相关的个别贡献。
2. 一致性(对称性):如果两个参与者做出了相同的贡献,他们将被赋予相同的值。
3. 无效应(无贡献):如果参与者没有对游戏的结果做出贡献,他们被赋予的值是零。Lundberg和Lee[26]建立了Shapley值概念与AI(XAI)模型中的可解释性领域之间的联系。在他们的研究中,他们将Shapley值的问题——传统上用于分析联盟成员如何贡献于奖励的实现——重新表述为一种关注单个特征如何影响模型输出的方法。在这种情况下,ML模型被解释为联盟游戏,而生成的预测代表了奖励。Shapley值提供了估计,反映了特征的相对重要性(即它们的影响程度)以及它们对预测的正面或负面影响。具有正号的特征增加了类别预测的概率,而具有负号的特征减少了该概率。在这种情况下,特征i的重要性由其Shapley值决定,该值由方程(1)给出。特征i的最终贡献或Shapley值?i是通过对其特征集的所有可能排列进行平均计算得出的。这涉及逐个将特征添加到集合中,其中模型输出的变化反映了它们的重要性。值得注意的是,这种方法考虑了特征的不同排序,当存在相关特征时,这可能会影响模型输出的变化。用于分配特征贡献的加性方法基于一个表示为二元变量线性函数的解释模型,如方程(2)所示。从这个角度来看,作者提出了SHAP方法,旨在将复杂模型的预测分解为可解释的特征贡献,采用方程(2)中呈现的加性结构。这种加性形式允许SHAP解释预测是如何从基值进展到模型最终输出的。此外,它确保贡献?i遵循从Shapley值派生的公理。活跃特征(zi = 1)的贡献之和近似于原始模型的预测[26]。考虑到这些结果,并假设要解释的模型是一个分类模型,提出模型输出由实例i属于类别Cj的成员概率组成。对于 j ≠ r,即对于不同的类别和固定的实例 i,每个类别的成员概率差异如方程 (3) 所示。
(1) 其中:
- N:所有特征的完整集合。
- S:N 中特征的子集。
- |S|:集合 S 的大小,即 S 中包含的元素数量。
- |S|!:集合 S 中所有特征的排列总数。
- f(S):待解释的机器学习模型的输出;f(S) 表示如果 S 中的特征根据游戏或系统的规则配合,联盟 S 可以获得的总值或收益。
- f(S∪{i}) - f(S):特征 i 对联盟价值的边际贡献,计算为包含 i 的联盟 S 的价值与不包含 i 的联盟价值之间的差异。
- |N|!:集合 N 中所有玩家的排列总数。
- (|N| - |S| - 1)!:在移除特征子集 S 和特征 i 后,N 中剩余特征的排列数量。
(2) 其中:
- z ∈ {0, 1}^N:简化的输入特征数量。
- g(z):用于提供复杂模型 f(x) 生成预测的可解释近似的简单模型。
- z:一个二进制变量,表示特征 i 的包含(1)或排除(0)。
- zi:从模型 f(x) 的原始特征 (xi) 导出的,但已被转换为更易于解释的形式 [27]。
- ?0:基础值(当没有添加任何特征时预测的平均值)。
- ?i:表示每个特征 i 的边际贡献。这些值是通过将模型的预测分解为每个特征的个别贡献来获得的。因此,φi 衡量特征 k 对属于类别 Cj 的概率的具体贡献,而 φi' 衡量其对类别 Cr 的贡献。差异 φi - φi' 评估了该特征在区分两个类别方面的程度。对于特征 m(m 是从 1 到 N 的特征之一),考虑 φi 随 z 的变化(或离散变化),从方程 (3) 我们得到方程 (4)。这里,δφi 表示当 z 从 0 变为 1 时 φi 的变化,同时保持其他特征在类别 Cj 和 Cr 之间的分析中不变。在实际应用中,它表示当二进制特征被“激活”(即设置为 1)时 φi 的增加(或减少)。
(3) 其中:
- P_i(Cj):实例 i 属于类别 Cj 的概率。
- P_i(Cr):实例 i 属于类别 Cr 的概率。
- P_i^base:与类别 Cj 和 Cr 相关的基础值(即每个类别的平均模型预测)。
- φ_k(Cj, Cr) 和 φ_k^base:实例 i 对于类别 Cj 和 Cr 的特征 k 的 Shapley 值。
- δφi:一个二进制变量,表示特征 k 在简化输入表示中是存在(1)还是不存在(0)。
(4) 符号 δφi 表示二进制变量两种可能状态之间的离散变化。这种紧凑的表示方式允许描述特征的边际影响,即当添加或移除该特征时模型结果如何变化。因为 δφi 是变量 x 的线性函数,所以当 z 从 0 变为 1 时 δφi 的变化可以直接通过以下方程计算出来。
(5) δφi 对 x′(二值化特征的向量)的梯度如以下方程所示。
(6) 使用方程 (4),方程 (6) 可以转换成以下方程:
(7) 梯度的每个分量可以通过以下方式表达:
(8) φ_k 的值反映了特征 k 在区分类别 Cj 和 Cr 方面的重要性。φ_k 的值越大,特征 m 对 δφi 的差异化影响越大。这种方法使得能够识别给定实例 i 两个类别之间分离中最相关的特征。鉴于概率变化和 SHAP 贡献之间的形式联系,有必要确定两个类别之间的概率差异增加、减少或保持不变的条件。这些基本属性使得能够描述激活二进制特征对类别区分产生的局部效应。以下命题陈述并严格证明了这一过程的行为。命题 1. (ΔP 增加的条件)。设 i 是一个实例,Cj 和 Cr 是两个类别。让 δφi 表示激活特征后每个类别 induced changes 的概率差异。那么,
- 当且仅当 δφi > 0 时,概率差异增加;
- 当且仅当 δφi < 0 时,概率差异减少。
证明。激活特征之前的概率差异是 P_i(Cj)^base - P_i(Cr)^base,激活特征之后的概率差异是 P_i(Cj) - P_i(Cr)。因此,诱导的变化由 δφi 给出。代入并重新排列项后,我们得到概率差异增加的条件,以及概率差异减少的条件。这完成了证明。
命题 2. (与 SHAP-LCD 的联系)。在 SHAP-LCD 框架下,激活特征引起的概率差异变化满足某些条件。这意味着 SHAP 贡献的符号完全决定了特征是倾向于类别 Cj、倾向于类别 Cr,还是不对它们进行区分。
如果 δφi > 0,那么当 z 从 0 变为 1 时,δφi 增加。这些结果表明特征更容易促进实例属于类别 Cj 的概率。
如果 δφi < 0,效果则相反:“激活”特征会减少 δφi,倾向于类别 Cr。
如果 δφi = 0,那么包含或排除该特征不会改变概率差异。在实践中,这个特征不能在 Cj 和 Cr 之间提供有意义的区分。δφi 的变化反映了特定实例的特征如何影响模型在区分两个类别时的决策。δφi 的显著增加(或减少)表明这些特征对两个类别之间概率的区分有明显的差异化影响。这种分析有助于评估模型在分类特定实例 i 时的相对信心,以及识别哪些特征最强烈地驱动这些差异。此外,高的 δφi 值表明模型为两个类别分配了显著不同的概率,反映了在分类实例 i 时的更大信心。相反,低的 δφi 值表明类别成员概率更相似,表明模型在区分这些类别时更加困难。这种情况可能是由于决策边界定义不清或特征不够具有代表性,无法有效区分这些类别。以下是实现上述 SHAP-LCD 方法的算法 1 和 2 的描述和伪代码。这组程序允许使用 SHAP 值分析多类分类模型的局部解释。算法 1 计算给定实例属于每一对可能类别的概率之间的绝对差异,根据它们的差异生成这样的对的有序列表,并通过条形图可视化这些差异,以帮助用户识别最相关的类别对。
4 案例研究
在本节中,对于给定的实例 i,我们分析了具有最大绝对差异的两个类别,因为在这些情况下模型最清晰地区分了该实例的成员身份。然后,我们评估了该实例的特征如何不同程度地贡献于这两个类别的预测,从而更详细地解释了模型的决策。算法 1:计算并可视化给定实例的类别概率差异。
算法 2:计算并可视化用户选择的类别对的 SHAP 差异。Statlog(车辆轮廓)
845
19
4
DecisionTreeClassifier
Macro-F1:0.7024 ± 0.0394
MCC:0.6113 ± 0.0480
准确率:0.7055 ± 0.0365
该数据集的目标是根据从图像中提取的几何特征将车辆轮廓分类为四个类别中的一个,模型必须正确预测给定轮廓所属的类别。
4.1 全局数据集探索(类别分布和小提琴图)
图1-3分别报告了Iris、Wine和Vehicle数据集的类别分布(百分比条形图)以及通过汇总所有标准化特征值获得的全局类别分布(小提琴图)。
图1:Iris——类别分布和全局类别分布(汇总特征)。
图2:Wine——类别分布和全局类别分布(汇总特征)。
图3:Vehicle——类别分布和全局类别分布(汇总特征)。
图1a表明Iris数据集是平衡的,各个类别的实例比例相似。图1b显示,标准化特征的汇总分布显示出明显的类别间差异:Setosa大部分密度集中在较低的值(约0.1),versicolor集中在中间值(约0.5),而virginica则集中在较高值(约0.7),由于特征的可变性,存在可见的尾部和轻微的重叠。图2a显示Wine数据集存在轻微的类别不平衡:wine_class_1的比例最高(约39.9%),其次是wine_class_0(约33.1%)和wine_class_2(约27.0%)。图2b显示,类别间的汇总分布有明显重叠,尤其是在wine_class_1和wine_class_2之间,两者都在中间范围(约0.3–0.4)集中了大量密度,而wine_class_0则倾向于向稍高的值偏移。图3a也表明Vehicle数据集存在轻微的类别不平衡,各个类别的比例接近:bus和opel的比例最高(约25.7%),其次是saab(约25.1%)和van(约23.6%)。图3b显示汇总分布有很强的重叠,saab和opel的行为特别相似,这通过它们相似的中位数和四分位数范围可以看出。总体而言,这些探索性图表在应用SHAP-LCD之前提供了关于类别平衡和全局可分性的初步数据驱动视图。Iris数据集显示出类别平衡以及汇总特征分布的清晰转移,表明类别区分较为容易。相比之下,Wine和Vehicle数据集显示出轻微的不平衡和更强的重叠,表明某些类别对更难以区分。这些探索性证据激发了后续的实例级分析:具有较小概率差距|ΔP|的类别对可能与较大的特征重叠相关,而具有较大|ΔP|的类别对通常对应于更清晰的分离,SHAP-LCD随后通过识别驱动LCD的特征来解释这一点。
为了评估SHAP-LCD在图像数据上的性能,我们使用了Fashion-MNIST数据集和轻量级的CNN。Fashion-MNIST包含70,000张28×28像素的灰度图像,分为60,000个训练样本和10,000个测试样本,涵盖了10个服装和配饰类别。该数据集因其高类别内变异性和类别间相似性而被广泛用作图像分类的基准,这使得预测模型面临更大挑战。所提出的CNN通过提前停止训练并在18个周期内收敛,获得了最高的验证准确率91.15%(第15个周期)。在保留的测试集上的最终评估得出测试准确率为89.71%,测试损失为0.2716。损失和准确率学习曲线如图4所示,表明在Fashion-MNIST上实现了稳定的收敛和良好的泛化能力。
4.2 实验设置和可重复性
所有实验均在运行Windows 11 Pro版本25H2(OS build 26200.7623;Windows Feature Experience Pack 1000.26100.275.0)的64位工作站上进行。硬件配置包括Intel Core i9-13900K CPU(3.00 GHz)和64 GB RAM;未使用GPU(仅CPU执行)。软件环境基于Python 3.10.11和以下库:NumPy 2.2.6、pandas 2.3.2、scikit-learn 1.7.2、SHAP 0.48.0、Matplotlib 3.10.6、Seaborn 0.13.2、XGBoost 3.0.5以及用于CNN实验的TensorFlow 2.20.0(Keras 3.11.3)。为了保证可重复性,在Python、NumPy和TensorFlow中固定了一个全局随机种子(SEED = 42)。此外,还设置了PYTHONHASHSEED,并在可能的情况下启用了确定性的TensorFlow操作以减少运行间的差异。对于表格数据集,特征进行了Min-Max标准化,并将数据分层分割为70%用于模型开发,30%专门用于可解释性;性能是在70%的分割上通过分层10折交叉验证来估计的,报告了Accuracy、Macro-F1和MCC的平均值±标准差,随后在保留的30%上计算了SHAP值。DecisionTreeClassifier和RandomForestClassifier使用默认设置进行训练(适用的情况下SEED = 42),XGBClassifier使用多类对数损失。对于Fashion-MNIST,图像被缩放到[0,1]并重塑为28×28×1。CNN使用在线数据增强(旋转10°、宽高移动0.1和缩放0.1)进行训练,采用Adam(学习率10^-4)、批量大小128,训练最多20个周期,并进行提前停止(耐心3,min_delta = 10^-4,基于val_accuracy监控,模式=max,恢复最佳权重)。官方的Fashion-MNIST测试集(10,000张图像)被完全保留;一个验证子集(60,000张图像训练集的10%)进行了分层采样(SEED = 42),专门用于提前停止和模型选择。模型使用sparse_categorical_crossentropy进行优化,并使用准确率进行评估。SHAP值是在Fashion-MNIST测试集上计算的,用于SHAP-LCD分析。CNN的架构详细列在表2中。
表2. 用于Fashion-MNIST的改进CNN的架构,包括SHAP-LCD。
表3总结了用于Fashion-MNIST实验的CNN训练配置,包括输入预处理、数据增强以及训练/验证/测试协议。
4.2.1 SHAP-LCD的评估指标(稳定性和一致性)
为了量化SHAP-LCD在小输入变化下产生的解释的可靠性,考虑了两个互补的实例级属性(Cj, Cr):稳定性和一致性。局部类别区分解释定义为向量,其中组件在方程(8)中有定义。稳定性衡量解释对局部扰动的敏感性,估计为基线解释和扰动解释之间的平均平方距离。设Sj,r(xi)是在其邻域内生成的xi的一组M个扰动;那么Sj,r(xi)在以下方程[28]中定义:
由于Sj,r(xi)≥0没有上限,因此没有一般的绝对范围。Sj,r(xi)接近零的值表明解释对局部噪声不敏感,即更稳定。一致性被定义为implication exp→pred:如果两个解释足够相似,则预测应该匹配。相似性通过以下方程定义:
[10]
τ∈(0,1)是一个阈值。基于含义的一致性在以下方程[28]中定义:
[11]
当解释根据阈值τ保持足够相似时,这个指标接近1,模型预测也得到保持。对于接近1的值,解释被认为是一致的。
4.2.2 评估协议和实验设置
稳定性和一致性的评估是通过局部扰动协议进行的,采用逐层聚合(扰动→实例→类别对)。对于固定的类别对(Cj, Cr),构建了与该对相关的测试实例集合×j,r?×test,根据真实标签(filter_mode=true)或模型预测(filter_mode=pred)来确定。设为评估的实例数量。第1层(扰动)。对于每个实例,在标准化空间中生成M个局部扰动,通过添加标准差为σ的有界高斯噪声(并在适用时剪辑到[0,1])。第2层(实例)。使用这些扰动,通过蒙特卡洛估计(对m求平均)来近似和。第3层(对)。最后,通过对这对中的N个实例进行聚合,获得以下方程定义的全局平均值:
[12]
同样,通过标准差sS和sC(分别对和进行计算)来量化实例间的变异性,并使用标准误差(SE)报告平均值的精确度:
[13]
在每个数据集中,参数(M, σ, τ)保持不变,种子被固定以确保评估的可重复性。
4.3 Iris数据集
图5使用条形图展示了Iris数据集中固定实例的绝对差异(ΔP,为简化符号),其中高值表示模型为该实例分配给每个类别的概率差异较大的类别对。对于此分析,随机选择了测试集(Xtest)中的实例10,模型以0.98的置信度将其分类为setosa类别。图5显示了实例10的类别概率之间的绝对差异——Iris数据集。分析实例10中类别对之间的分类概率绝对差异发现,“setosa”和“virginica”类别之间的差异最大,值为0.96。这一结果表明模型在区分这两个类别时有很高的信心,反映了明确的决策边界。相比之下,具有最低绝对差异的类别对,如“versicolor”和“virginica”,显示出较低的差异值,表明它们的分类概率更为相似。为了进一步探索这些发现,对于每个特征k,计算了SHAP值之间的差异(ΔS),如图6所示(为清晰起见简化了符号),这些差异对应于分类概率绝对差异最大的两个类别。这些差异按绝对大小排序,即|ΔS|。通过这种方式——尽管可以选择任何类别对——可以识别出对分类差异影响最大的特征。图6展示了这种分析的结果,其中可视化了负责观察到的分类概率差异的主要特征。
图7展示了图5中排名中接下来两个类别对的SHAP值差异。图7a观察到,在“setosa”和“versicolor”类别之间的区分中,花瓣长度特征最为突出;对于这个特征,ΔS为正,表明它有助于将实例分类为“setosa”。另一方面,图7b显示,萼片宽度特征在区分“versicolor”和“virginica”类别中贡献最大,ΔS为负,表明它有利于“virginica”类别。图7:在图谱查看器中打开(PowerPoint)
鸢尾花数据集第10个样本的类对之间的SHAP值差异。
4.4 葡萄酒数据集
图8显示了葡萄酒数据集中各类别之间的分类概率绝对差异,对应于Xtest中索引为38的样本,该样本被模型以0.99的置信度分类为wine_class_1。图8:在图谱查看器中打开(PowerPoint)
葡萄酒数据集第38个样本的类别概率绝对差异。在图8中,“wine_class_0”和“wine_class_1”之间的差异最大,绝对差异为1。接下来是“wine_class_1”和“wine_class_2”,这表明模型能够清楚地区分这两个类别。相比之下,对于该样本,模型无法清楚区分“wine_class_0”和“wine_class_2”。
图9展示了对类别间分类影响最大的特征。图9:在图谱查看器中打开(PowerPoint)
“wine_class_0”和“wine_class_1”类别之间的关键特征SHAP值差异。从图9可以看出,对模型预测贡献最大的特征是color_intensity。ΔS的负值表明该特征增加了样本被归类为“wine_class_1”的概率。图10分析了图8中排名第二的类别对“wine_class_1”和“wine_class_2”,同样,color_intensity特征在类别区分中起到了重要作用,偏向于“wine_class_1”。
图11显示,proline特征在“wine_class_2”类别中的概率高于“wine_class_0”。其次是flavonoids特征,它偏向于“wine_class_0”。alcalinity_of_ash、malic_acid和ash特征的ΔS值接近零,这意味着包含或不包含这些特征不会改变第38个样本的两个类别之间的概率差异。
4.5 车辆轮廓数据集
在图12中,可以观察到车辆轮廓数据集中各类别之间的分类概率绝对差异,对应于Xtest中索引为10的样本,该样本被模型以1的置信度分类为“van”类别。图12:在图谱查看器中打开(PowerPoint)
“Vehicle Silhouettes数据集”中第10个样本的类别概率绝对差异。模型在“van”与其他类别之间的区分更为明显,而“bus”、“saab”和“opel”之间的差异较小,这表明在后几个类别中可能存在更多相似的特征。图13显示,MAX.LENGTH ASPECT RATIO特征的ΔS值为负,因此该特征降低了归类为“van”的概率。另一方面,SCALED VARIANCE ALONG MINOR AXIS和SCATTER RATIO特征的ΔS值为正,这意味着它们增加了归类为“bus”的概率。
4.6 Fashion-MNIST数据集
在图15中,报告了第6838个样本的类别对之间的概率绝对差异|ΔP|,仅显示了前10个最大值的组合,并按降序排列。最具区分性的组合是T-shirt/Top和Trouser,其|ΔP|接近1,表明这两个类别之间几乎完全分离。图15:在图谱查看器中打开(PowerPoint)
对于图像数据集,图16展示了两个类别(Cj, Cr)之间的SHAP值差异的热图。绿色像素(ΔS > 0)表示有助于Cj类别的贡献,而品红色像素(<0)表示有助于Cr类别的贡献,从而突出显示了两个类别之间最具区分性的区域。图16的热图显示,品红色区域增加了Trouser类别的概率,而绿色区域则倾向于T-Shirt/Top类别。图16:在图谱查看器中打开(PowerPoint)
图17的热图分别在图像上直接展示了Fashion-MNIST数据集中“T-Shirt/Top”和“Trouser”类别之间的像素级差异。图17的热图证实了T-shirt/Top类别的显著区分作用,而Trouser类别的区分作用较弱。
5 复杂性
前面的案例研究表明了SHAP-LCD在表格和图像领域中的适用性和可解释性。在实证验证了该方法后,现在有必要研究其计算行为和可扩展性。本节将对SHAP-LCD的计算复杂性进行正式分析,总结见图18,并在下方进行讨论。分析分为两个部分:(A)SHAP值的计算和(B)后续的后处理操作,以及它们对所提出方法实现和可扩展性的实际影响。图18:在图谱查看器中打开(PowerPoint)
SHAP-LCD的计算成本流程:
- m:解释的样本数量。
- d:特征/位置的数量。
- C:类别的数量。
- T:树的数量。
- D:树的深度。
- K:联盟的数量(Kernel SHAP)。
- b:背景集的大小。
- F:每次评估的前向/后向传递成本。
- s:选定的类别对的数量。
- P:位置的数量(例如,像素)。
- t:渲染的热图数量。
该图总结了SHAP-LCD的计算成本,其中总成本表示为Total ≈ A + (B1 + B2 + B3)。主要成本通常是A,它取决于使用的解释器类型(Deep/Gradient、Kernel、Linear和Trees)。B1(保存)、B2(选定对分析)和B3(热图生成)是针对预计算的SHAP值所做的后处理操作。实际上,瓶颈通常在于A,尤其是在使用Kernel SHAP或深度解释器时;B2主要随选定的对数量s和位置数量P(例如,像素)以及热图数量t而变化。这种复杂性分析依赖于表4[26, 30-32]中提供的信息。
6 讨论与结果
下面使用密度图比较了对类别区分贡献最大的特征的分布,并展示了实施所提出策略后获得的结果,以验证类别间的分离模式是否与模型的预测一致。这项分析得出了以下结果。对于第一个案例研究(鸢尾花数据集),图5的结果显示,模型能够清楚地区分“setosa”和“virginica”类别,概率差异为1。图6表明,对Setosa和Virginica类别区分贡献最大的特征是花瓣长度。图19a的密度图显示,Setosa(蓝色)集中在较低的值(约1-2厘米),而Virginica(绿色)集中在较高的值(约4.5-7厘米)。在x=1.2处,分析样本10的花瓣长度特征值为Setosa的概率较高,而Virginica的概率几乎为零,这与图6显示的结果一致。另一方面,模型估计Versicolor和Virginica类别之间的概率差异接近零,这是模型最难以区分的类别对。图19b显示了这两个类别之间萼片宽度特征的分布。在图19b中,Versicolor(蓝色)分布在中间和较低的值(约1.5-3.6厘米),而Virginica(绿色)分布在较高的值(约1.8-4.3厘米)。
对于第二个案例研究(葡萄酒数据集),根据图8的结果,模型估计“wine_class_0”和“wine_class_1”类别之间的概率差异为1,表明它能够清楚地区分这两个类别。图20a中的概率图显示,color_intensity特征表明“wine_class_1”(绿色)在较低的值(约2-4厘米)具有较高的概率,而“wine_class_0”(蓝色)在较高的值(超过5厘米)占主导。在x=3.05时,该样本(实例38)的这一特征值表明“wine_class_1”的概率高于“wine_class_0”,这与模型的预测结果一致。
使用车辆轮廓数据集进行了比较分析,研究了两个特征MAXLENGTH ASPECT RATIO和ELONGATEDNESS的分布,以验证图13和图14中的结果。图21a显示,MAX_LENGTH ASPECT RATIO特征的分布表明Van类别的值主要在8-15范围内,峰值在10-12左右,而Bus类别的值主要集中在6-8范围内。参考点x=12处的概率较高,表明模型倾向于将具有此值的样本分类为Van。图21 在图形查看器或PowerPoint中打开
“MAX_LENGTH ASPECT RATIO”特征在类别对“(a) ‘巴士’和‘面包车’”(左侧)之间的分布,以及“ELONGATEDNESS”特征在类别对“(b) ‘萨博’和‘欧宝’”(右侧)之间的分布;红色星号表示被分析实例的特征值。在图21b中,“ELONGATEDNESS”特征在萨博和欧宝之间有显著的重叠,这支持了模型仅使用这一特征难以区分这两个类别的观点。参考点x=43表明萨博在概率上略优于欧宝。对于萨博类别(蓝色),x=43处的概率约为0.030,而对于欧宝类别(绿色),x=43处的概率约为0.028。即使在模型难以区分萨博和欧宝的背景下,这一结果也与图14中的结果一致。值得注意的是,如果两个类别之间的概率差异很小,意味着没有一个类别在特征值上完全占优势,这可能导致“ELONGATEDNESS”特征在某些点上出现小的交叉。这一分析进一步强调了尽管某个特征可能总体上更倾向于一个类别,但在特定情况下其行为可能并不明显——特别是在模型难以区分这些类别时。在三个数据集(Iris、Wine和Vehicle Silhouettes)上获得的结果支持了可以使用SHAP值来分析实例级类别差异的假设。在每个数据集中,显示出最大SHAP值差异的特征正是那些对预测概率差异最大的两类区分贡献最大的特征。此外,在Fashion-MNIST图像数据集上,该方法还能够定位出区分不同类别的像素。这些发现证实了所提出的数学关系对于局部类别差异分析是一致的且是有用的。与传统的SHAP使用方法不同,后者关注的是特征对模型的总体贡献,这里提出的方法建立了SHAP值与实例级别类别差异之间的明确数学关系,从而实现了更细致的分析。尽管像G-SHAP这样的方法以及其他可解释性方法(例如LIME、Grad-CAM和PDP)以及反事实解释也被用来研究类别差异,但没有一种方法直接将特征的逐点贡献与两个类别之间的概率差异联系起来。因此,这项工作通过明确考虑分类问题中的特征交互作用,补充并扩展了基于SHAP的解释方法的应用。这种方法在识别区分特定类别的关键因素的问题中特别有用。例如,在医学诊断中,它可以帮助区分具有相似表现的疾病;在金融领域,它可以识别出合法交易和欺诈交易的关键变量;在计算机视觉中,它可以识别出图像分类任务中区分对象的具体视觉属性。
6.1 SHAP-LCD解释的稳定性和一致性分析
在本节中,将展示针对表格数据集和图像数据集实施稳定性和一致性指标的结果。
6.1.1 指标的报告和解释
这些指标是按类别对(Cj, Cr)报告的,该集合包含了与该对相关的N个测试实例。首先,对于每个实例,通过M次扰动估计值Sj, r(xi)。然后,通过跨实例的统计摘要来总结这对结果:计算平均值以及它们的分散度(sS, sC)和标准误差(SE)。SE值在表5中单独报告。表5显示了不同数据集中基于稳定性和含义一致性的对级平均值的标准误差。
稳定性量化了在小扰动下解释Expj, r(xi)的局部敏感性:低值表示解释的变化较小。相比之下,含义一致性量化了在阈值τ下解释相似性和预测保留之间的连贯性。为了对此进行进一步说明,还报告了两个补充指标:(i) 前提覆盖率(Covimp),定义为满足条件的扰动比例;以及(ii) 预测保留率(PredKeepimp),定义为具有该条件的扰动比例。这些指标一起可以帮助区分由于前提覆盖率低而导致的低一致性和尽管覆盖率合理但仍然低的一致性,这表明解释相似性和预测稳定性之间存在解耦。
6.1.2 实验结果:SHAP-LCD解释的稳定性和一致性
表6总结了在使用N=30个实例、每个实例40次扰动、σ=0.02和严格阈值τ=0.95的情况下,ShAP-LCD在Iris数据集上针对分析的类别对的稳定性和基于含义一致性的定量评估。一般来说,接近1的值表明,当两种解释具有高余弦相似性(前提)时,模型预测往往会得到保留(结论)。对于setosa与virginica,稳定性值较低(s小),前提频率较高(Covimp=0.968),这表明Expj, r(xi)对局部扰动的敏感性较低,同时解释相似性和预测保留之间的连贯性较高(PredKeepimp=0.980)。相比之下,对于versicolor与virginica,尽管也具有很高的余弦相似性(0.997),但观察到更大的稳定性变化(s和sS较大),这与这对类别的局部行为更敏感是一致的;然而,Covimp=0.872和PredKeepimp=0.973仍然较高,表明当解释根据τ相似时,预测通常会被保留。
在Wine数据集中,见表7,使用每个实例40次扰动、σ=0.02和τ=0.95,评估了wine_class_0与wine_class_1这对类别。平均稳定性(sS=0.1042)表明与第二个类别对相比,这一对在实例间的局部敏感性和变异性更大。然而,基于含义的一致性接近1(sC=0.0080),表明当解释在τ下足够相似时,预测几乎总是被保留的。这与补充指标Covimp=0.8769(前提频繁出现)和PredKeepimp=0.9904(高预测稳定性)是一致的。
在Vehicle数据集中,对于wine_class_0与wine_class_1这对类别,考虑了N=39个实例(平衡18/21)。平均稳定性(sS=0.1042)表明与第二个类别对相比,这一对在实例间的局部敏感性和变异性更大。然而,基于含义的一致性接近1(sC=0.0080),表明当解释在τ下足够相似时,预测几乎总是被保留的。
对于wine_class_0与wine_class_2这对类别,考虑了N=33个实例(平衡18/15)。在这种情况下,稳定性更好(sS=0.0365),表明Expj, r(x)在小扰动下变化不大。基于含义的一致性也很高(sC=0.0121),并且得到了Covimp=0.9568和PredKeepimp=0.9917的支持。总体而言,这些结果表明,对于wine_class_0与wine_class_2这对类别,解释在局部上更稳定;而对于这两个类别对,解释相似性和预测保留之间的强一致性得到了保持。在Vehicle数据集中,表8总结了在两种类别对(bus与saab和saab与opel)上SHAP-LCD解释的定量评估,基于N=129个测试集实例进行了计算,两者之间的平衡为50/50,每个实例40次扰动,σ=0.02,以及严格的阈值τ=0.95。就稳定性而言,bus与saab对的平均变化适中(s小),而saab与opel对表现出更高的敏感性(s大),表明在这一对类别中解释向量的变化更为明显。另一方面,基于含义的一致性几乎完美(sC=0.0121),这表明当解释根据τ相似时,预测往往会得到保留。然而,这一结果必须结合上下文指标来解读:前提覆盖率适中(Covimp=0.497和0.413),这意味着“高解释相似性”的条件只在少数扰动中得到满足;此外,总体预测保留性介于中等(PredKeepimp=0.779和0.738),反映了模型在局部噪声下可能会改变其输出。总体而言,这些结果表明解释的局部行为取决于类别对(saab与opel对具有更高的敏感性),并且应该将理解为在具有高解释相似性的扰动条件下的连贯性,而不是模型在扰动下的全局稳定性。
在Vehicle数据集中,当使用决策树(DT)时,由于模型的分片性质(输入空间被划分为由阈值定义的离散区域[叶子]),局部行为往往不太稳定。在这种情况下,小的扰动可能会跨越一个阈值并将实例移动到不同的叶子,导致预测类别的突然变化(因此,概率也会发生变化)。这种效应与以下情况一致:(i) 中等程度的预测保留,如bus与saab的PredKeepimp=0.779和saab与opel的0.738所反映的;以及(ii) 相对较高的稳定性值,分别为0.761。此外,实例间的变异性也很明显(sS=0.327和0.463),这表明测试集内的局部敏感性并不均匀。这种行为与在Iris和Wine数据集中观察到的结果形成对比,在这些数据集中使用了集成模型(分别是随机森林和XGBoost)。通过聚合多棵树/规则,这些模型通常可以减弱局部变化,并减少在小扰动下的突然跳跃,从而倾向于更高的预测保留和更稳定/一致的解释。在Iris和Wine数据集中,观察到较高的PredKeepimp值(例如,约0.97–0.99),以及相对较高的前提覆盖率(Covimp=0.497和0.413),这意味着在更复杂的设置中,Covimp会降低,因为只有少数扰动能够使解释向量与基线解释保持足够对齐。在Fashion-MNIST数据集中,表9总结了在局部扰动下两个类别对的SHAP-LCD解释的定量评估,每对考虑了N=50个实例,每个实例40次高斯扰动(截断到[0, 1]),使用余弦相似性和阈值τ=0.85(σ=0.01)。在这两对类别对中,都观察到了完全的预测保留(PredKeepimp=1.000),而解释相似性的证据在类别对之间有所不同:T-shirt/Top与Trousers的对达到更高的覆盖率(Covimp=0.772)和较低的总体稳定性(sC=0.611),而T-shirt/Top与Coat的对则相反。配置
Covimp
PredKeepimp
σ = 0.01, τ = 0.85
50
0.627 ± 0.802
1.000 ± 0.000
0.612
1.000
σ = 0.02, τ = 0.90
50
0.727 ± 0.738
1.000 ± 0.000
0.495
0.987
总结来说,基于局部扰动的定量评估表明,SHAP-LCD在稳定性和一致性方面的表现取决于模型和类别对。特别是在车辆(Vehicle with DT)中,观察到更大的局部变化(更高的Covimp)以及较低的预测保持能力(PredKeepimp),这与决策边界在跨越阈值时表现出离散变化的特点一致,这是决策树(DTs)的典型特征。相比之下,在Iris(随机森林)和Wine(XGBoost)中,集成模型倾向于平滑对小变化的响应,从而产生更稳定的解释,并且这些解释与预测稳定性更为一致。最后,Covimp和PredKeepimp指标对于解释结果至关重要;当相似性标准严格时,高影响力一致性值可能与中等/低覆盖率共存,因此必须联合报告和解释这些结果。此外,在Fashion-MNIST数据集使用CNN时,类别对的影响也很明显:即使在局部邻域内预测保持能力可能很高,解释相似性的证据也会在不同类别对之间显著变化。例如,在较宽松的配置(σ=0.01, τ=0.85)下,Trouser与Coat的覆盖率更高,平均稳定性更低,而T-shirt/Top与Trouser的覆盖率更高(见表9),这表明前者的解释更为一致。当考虑更严格的配置(σ=0.02, τ=0.90)时,Covimp和PredKeepimp都会降低,同时增加(见表10),这与更大幅度的扰动和更严格的相似性阈值一致。总的来说,这些结果强调了必须对每个类别对进行稳定性和一致性的评估和报告,并且当PredKeepimp较高时,Covimp提供了重要的证据来补充解释结果。
结论与未来工作
在这项工作中,SHAP-LCD被介绍为一个局部可解释性工具,它建立了实例属于两个类别的概率变化与其特征具体贡献之间的直接数学关系,这是基于SHAP值的。这种方法能够详细分析两个类别之间的差异,识别在实例层面哪些特征在类别区分中起更重要的作用。通过密度图展示了对类别对区分贡献最大的特征的分布,这有助于识别直接影响特定实例分类的价值范围,从而支持所提出工具的实际用途。基于开发的数学框架,SHAP-LCD提供了清晰且可解释的可视化结果,便于分析每个属性对类别区分的影响。这种方法对数据科学家和AI从业者特别有用,因为它帮助他们识别导致特定类别间差异的因素。此外,它还为医疗保健、金融和计算机视觉等领域的决策提供了有价值的信息。此外,这项工作还结合了通过稳定性和一致性指标对SHAP-LCD解释进行定量评估。结果表明,扰动下的行为取决于底层模型和分析的类别对:尽管集成模型(例如,Iris上的随机森林和Wine上的XGBoost)倾向于减弱小变化——产生更稳定的解释和与预测稳定性更强的对齐——但在决策边界更清晰的更具挑战性的设置中(例如,带有决策树的Vehicle),解释向量的变化可能更为明显。在这方面,与基于影响的一致性相关的补充指标(先行覆盖率和预测保持能力)能够忠实解释聚合得分,并帮助区分证据有限(低覆盖率)和解释相似性与预测稳定性之间的真正解耦。除了表格设置外,在Fashion-MNIST数据集上使用CNN的实验进一步证实了SHAP-LCD在局部扰动下的类别对依赖性;即使在考虑的邻域内预测保持能力仍然很高,解释相似性的证据在不同视觉相关的类别对之间也可能有显著差异。这强化了需要在类别对层面报告稳定性和基于影响的一致性的必要性,而不仅仅是一个聚合得分,并突出了先行覆盖率作为在预测稳定性强时解释一致性上下文化的关键指标的作用。
7 结论与未来工作
在这项工作中,SHAP-LCD被展示为一个局部可解释性工具,它建立了实例属于两个类别的概率变化与其特征具体贡献之间的直接数学关系,这是基于SHAP值的。这种方法能够详细分析两个类别之间的差异,识别在实例层面哪些特征在类别区分中起更重要的作用。通过密度图展示了对类别对区分贡献最大的特征的分布,这有助于识别直接影响特定实例分类的价值范围,从而支持所提出工具的实际用途。基于开发的数学框架,SHAP-LCD提供了清晰且可解释的可视化结果,便于分析每个属性对类别区分的影响。这种方法对数据科学家和AI从业者特别有用,因为它帮助他们识别导致特定类别间差异的因素。此外,它还为医疗保健、金融和计算机视觉等领域的决策提供了有价值的信息。此外,这项工作还结合了通过稳定性和一致性指标对SHAP-LCD解释进行定量评估。结果表明,扰动下的行为取决于底层模型和分析的类别对:尽管集成模型(例如,Iris上的随机森林和Wine上的XGBoost)倾向于减弱小变化——产生更稳定的解释和与预测稳定性更强的对齐——但在决策边界更清晰的更具挑战性的设置中(例如,带有决策树的Vehicle),解释向量的变化可能更为明显。在这方面,与基于影响的一致性相关的补充指标(先行覆盖率和预测保持能力)能够忠实解释聚合得分,并帮助区分证据有限(低覆盖率)和解释相似性与预测稳定性之间的真正解耦。除了表格设置外,在Fashion-MNIST数据集上使用CNN的实验进一步证实了SHAP-LCD在局部扰动下的类别对依赖性;即使在考虑的邻域内预测保持能力仍然很高,解释相似性的证据在不同视觉相关的类别对之间也可能有显著差异。这强化了需要在类别对层面报告稳定性和基于影响的一致性的必要性,而不仅仅是一个聚合得分,并突出了先行覆盖率作为在预测稳定性强时解释一致性上下文化的关键指标的作用。
尽管SHAP-LCD具有许多优点,但它也存在一些局限性:当特征数量较多时,解释变得复杂,且SHAP计算可能成本高昂;此外,由于SHAP对特征之间的相关性敏感,SHAP-LCD也继承了这一限制。作为未来的工作,我们计划提高SHAP-LCD在高维数据集上的效率,探索其在更复杂模型中的应用,并将其扩展到全局分析。同样,我们将评估其在类别区分至关重要的领域(例如,医疗诊断、欺诈检测和图像模式识别)的影响,并将其适用性扩展到额外的数据模式,如文本和序列数据(例如,时间序列)。最后,我们希望通过引入超出当前稳定性和一致性分析的补充指标来丰富评估框架,以获得对SHAP-LCD性能的更全面描述。
作者贡献
R.M. Romero Luna:概念化、方法论、软件开发、验证、可视化、撰写——原始草案。
H.A. Ordo?ez Erazo:方法论、指导、撰写——审稿与编辑。
C.A. Cobos Lozada:指导、验证、撰写——审稿与编辑。
致谢
作者特别感谢Cauca大学为这项计算机科学博士项目研究工作所提供的支持。
作者声明没有利益冲突。
在准备这项工作期间,作者使用了ChatGPT(GPT-4)来辅助写作过程,以提高可读性和语言表达。使用该工具后,作者对内容进行了必要的审查和编辑,并对出版物的内容负全责。
代码和材料
SHAP-LCD的实现以及用于重现案例研究的脚本可在以下链接找到:https://github.com/romeroluna1/。
数据说明
本研究没有创建或分析新的数据。因此,本文不适用数据共享的规定。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号