《ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING》:Deep Learning Meets Explainability in MRI Brain Tumor Analysis: A Review and Future Research Framework
脑肿瘤(BT)是重大疾病,需要早期诊断和准确评估以规划适当的治疗策略。MRI扫描被广泛用于诊断脑肿瘤;然而,手动检查既繁琐又容易产生不一致性。在过去几年中,使用深度学习(DL)模型在脑肿瘤分类(BTC)方面取得了显著进展,这些模型显示出卓越的功效。不幸的是,与DL模型相关的黑箱问题阻碍了其在医疗机构的更广泛实施。本综述旨在探索通过结合迁移学习和混合深度学习算法与可解释人工智能(XAI)技术,基于MRI的脑肿瘤分类的最新进展。本综述还探讨了该领域的最新发展,识别了当前研究中的现有空白,并提供了一个概念模型以推进脑肿瘤识别系统。
**1 引言**
脑肿瘤是罕见的癌症形式,但由于其高致死率和对神经系统的显著影响,对个体健康构成重大威胁。早期检测和准确分类对于减轻痛苦和改善患者生活条件至关重要。美国脑肿瘤协会(ABTA)报告称,美国每年约有88,000例脑肿瘤诊断,且约有700,000名脑肿瘤幸存者。在印度,每年每100,000人中有5-10人被诊断出脑肿瘤。国际癌症研究协会(IARC,2022)估计印度每年约有28,000例新发肿瘤病例。脑肿瘤病因的增加需要快速且精确的诊断,以便早期干预(如手术、放疗或药物),从而改善治疗结果。传统诊断方法依赖放射科医生对MRI的广泛观察和测量,但可能偏离完美。脑肿瘤有多种类型和亚型:胶质瘤是最常见的,起源于支持脑神经元的胶质细胞,包括星形细胞瘤、少突胶质细胞瘤、室管膜瘤和多形性胶质母细胞瘤(GBM)。脑膜瘤起源于脑膜,大多数为良性;垂体瘤极为罕见,恶性肿瘤来源于垂体腺细胞。MRI因其优异的软组织对比度和获取多种序列的能力而被视为脑肿瘤分析和分类的标准模态。多参数MRI序列包括T1加权(T1)、对比增强T1(T1c)、T2加权(T2)和液体衰减反转恢复(FLAIR)。T1加权成像提供高分辨率解剖细节,对比增强后检测血脑屏障破坏;T2加权成像提供水肿、囊性变和坏死区域的强对比;FLAIR抑制脑脊液(CSF)信号,改善瘤周水肿和浸润性肿瘤边界的可见性。弥散加权成像(DWI)测量组织内水分子运动,表观弥散系数(ADC)图有助于区分肿瘤级别和复发;灌注加权成像(PWI)通过测量脑血容量(CBV)评估肿瘤血管分布,高级别胶质瘤通常显示CBV升高。计算机断层扫描(CT)常用于紧急情况,检测钙化、出血和骨受累;正电子发射断层扫描(PET)提供代谢和分子信息。深度学习(DL)算法对于医学图像评估至关重要,能够识别重要特征和模式,提高脑肿瘤分类的精度和可靠性。
**1.1 动机**
DL模型在脑肿瘤分类中广泛使用的原因是其高准确率,但模型的“黑箱”特性阻碍了对结果的信任。模型精度和可解释性之间需要平衡。尽管可解释人工智能(XAI)在脑肿瘤分类中的应用日益普遍,但尚未有系统的文献综述和框架设计。近期工作展示了使用深度学习和迁移学习方法进行脑肿瘤分类的 promising 结果,例如[9]提出基于卷积神经网络(CNN)特征提取和迁移学习的多类分类系统;[10]强调了准确分类和分割的重要性,但数据集变异、标注不足和缺乏可解释性等问题仍然存在。本综述旨在提供对现有方法的全面分析,以识别可靠且临床适用的脑肿瘤分析解决方案。
**1.2 文章选择**
文章选择过程对以往关于XAI在医学领域应用的研究进行了详细分析,使用了Web of Science(WoS)、Scopus、IEEE Xplore和ScienceDirect等数据库。结果显示,脑肿瘤(BT)是ScienceDirect中出版物最多的领域。
**1.3 综述策略**
本综述主要考虑可解释人工智能(XAI)用于脑肿瘤分类(BTC),故将“Explainable AI”作为第一搜索词,“Brain tumor classification”作为第二搜索词。基于PRISMA方法进行系统文献综述:最初从主要数据库和附加来源收集180项研究,去除30篇重复后筛选150篇标题和摘要,排除65篇不相关文章;剩余85篇进行全文评估,其中22篇因缺乏相关性、无解释性方法或实验验证不足被排除,最终63篇被选入定性分析。纳入标准包括:2019至2025年间发表、期刊或综述文章、与计算机科学和工程相关、至少使用一个指定搜索词、提供研究查询解决方案。排除标准包括:非英文文章、重复文章、非全文、与脑肿瘤诊断(BTD)或分类不显著相关、未提供相关细节。最终从IEEE、Springer Nature、MDPI、Wiley和Elsevier等标准出版商选取63篇文章。
**1.4 与现有XAI医学影像综述的比较**
现有关于医学影像XAI的综述在范围和深度上存在差异。[11]覆盖可视化可解释性方法如显著性图和Grad-CAM;[12]更关注分类任务和解释方法,但未考虑Transformer架构和混合方法;[13]为BMC Medical Imaging的综述考虑了注意力机制、图神经网络和多模态Transformer;[14]涵盖自解释AI方法;[15-17]提供指南、框架和跨领域视角。然而,这些工作均未专门针对脑肿瘤分类(BTC),或缺乏BTC模型及其XAI应用的比较。
**1.5 本综述的贡献**
主要贡献包括:1) 专注脑肿瘤分类(BTC)分析;2) 综述并分类各种XAI方法,包括显著性图、Grad-CAM和注意力机制;3) 比较不同深度学习架构(如CNN、Transformer和混合模型)的性能指标(准确率、Dice系数、IoU);4) 强调迁移学习和混合深度学习方法处理有限医学数据集的重要性;5) 提出一个整合模态学习、特征融合、层次预测和XAI的综合框架;6) 识别研究空白;7) 讨论临床相关的实际挑战。
**1.6 论文组织**
第1节介绍背景、文章选择、综述策略、纳入排除标准、与现有综述的比较及论文贡献和组织。第2节关注用于脑肿瘤分类的深度学习模型,如迁移学习、集成模型和混合模型。第3节探讨脑肿瘤分类的XAI方法。第4节介绍公开数据集。第5节讨论预处理方法。第6节强调分类和XAI的评估指标。第7节介绍使用混合深度学习模型的可解释脑肿瘤分类(EBTC)近期工作。第8节比较EBTC架构。随后几节讨论研究空白和未来方向。第11节提出多模态EBTC概念框架。最后第12节总结。
**2 用于可解释脑肿瘤分类(EBTC)的深度学习模型**
深度学习(DL)模型通过从MRI图像中直接学习复杂模式自动准确解释扫描结果,消除手动特征提取需求,能感知胶质瘤、脑膜瘤和垂体瘤等肿瘤类型间的微小差异。图7展示了用于脑肿瘤分类的DL模型。
**2.1 迁移学习**
迁移学习(TL)在脑肿瘤分类中极为有用,尤其当医学图像数据稀少时。它利用在大数据集(如ImageNet)上预训练的模型学习新小数据集的有用特征(如边缘、纹理和形状),解决数据稀疏性和高计算成本,提高准确率、减少训练时间并避免过拟合。常用预训练CNN架构包括VGG16/VGG19、ResNet50、EfficientNet(B0至B7)、MobileNet(V1/V2)、DenseNet和InceptionV3。VGG16/VGG19使用3×3卷积,捕捉局部空间信息,但缺乏跳跃连接易导致信息退化;ResNet通过残差连接防止梯度消失,善于保留空间信息但GPU密集;EfficientNet通过复合缩放平衡深度、宽度和分辨率,使用移动倒置瓶颈卷积(MBConv)和压缩-激励层,高效但依赖于适当预处理;MobileNet使用深度可分离卷积减少参数,适用于实时或便携设备但精度较低;DenseNet使用密集连接使后续层从所有前层获取输入,促进特征复用和梯度稳定,但内存消耗高;InceptionV3使用卷积分解和更好的Inception模块提取多尺度特征,但计算要求高。
**2.2 集成模型**
集成模型整合多个模型的优势,提高准确率、鲁棒性和泛化能力,通过bagging、boosting和stacking处理数据变异性和减少过拟合。异质预测可通过多数投票、加权平均和元学习技术计算。集成模型提供精确的肿瘤诊断并有助于早期诊断,但资源密集、设置复杂。
**2.3 CNN+Transformer混合模型**
CNN擅长从MRI扫描中检索局部数据(如肿瘤边界),Transformer通过自注意力机制捕捉全局上下文和长程依赖。这种组合使模型能同时关注特定肿瘤位置和更广泛的上下文信息,提高分类全面性和准确性。在视觉Transformer中,输入图像被分割为固定大小补丁,展平并线性嵌入成序列,添加位置嵌入,通过Transformer编码器使用自注意力捕捉补丁间的全局关系,最后通过可学习的分类令牌输出预测结果。
**2.4 CNN+注意力混合模型**
CNN识别空间模式,注意力模块帮助模型聚焦于最相关区域(通常为肿瘤),忽略不重要的背景,提高分类准确性和对肿瘤位置、大小和形状变化的鲁棒性。自注意力模型通过将CNN或Transformer提取的特征转换为查询、键和值,计算注意力权重,生成加权表示,最后通过前馈神经网络输出分类结果。
表2总结了不同DL方法的优缺点:迁移学习快速有效但可能过拟合;集成学习提高精度但计算昂贵;CNN+Transformer能捕捉局部和全局特征但复杂;CNN+注意力高效聚焦肿瘤区域但可能忽略全局上下文。
**3 可解释人工智能(XAI)**
尽管DL模型在医学环境中高效,但缺乏透明度。XAI方法有助于分析决策过程,检测偏见或差距,突出显示AI使用的独特图像变量,提高诊断准确性和可信度。可解释人工智能(XAI)包含使复杂深度学习模型内部机制和决策过程可解释的方法框架。在脑肿瘤分类中,XAI通过突出显示导致分类决策的重要脑扫描特征,增强临床医生的信任,确保决策基于临床相关模式而非伪影,并满足法律和道德要求。
**3.1 XAI技术的分类学与分类**
XAI方法按模型透明度分为内在可解释模型(如线性回归、决策树)和事后解释方法(如LIME、SHAP);按解释范围分为全局解释和局部解释;按解释技术分为特征归因、基于示例、基于规则和可视化技术;按模型类型分为白盒模型和黑盒模型。在脑肿瘤分类中,XAI提高了算法透明度和可解释性。
图12展示了各种XAI技术,分为五类:特征重要性、模型特定可解释性、可视化、基于注意力和基于示例。特征重要性方法包括LIME(通过扰动输入数据局部拟合可解释模型)、基尼重要性(决策树和随机森林)、排列特征重要性和SHAP值(基于合作博弈论分配特征贡献)。模型特定可解释性包括决策树、规则模型、线性回归和替代模型。可视化方法包括部分依赖图(PDP)、个体条件期望(ICE)图、累积局部效应(ALE)图和基于梯度的方法(如Grad-CAM)。基于注意力的技术包括层相关传播(LRP)和注意力权重可视化。基于示例的方法包括反事实解释、原型方法等。
**3.2 脑肿瘤分类中的XAI**
现有研究显示,Grad-CAM方法在需要特征相关诊断时高效。最常用的可解释性模型是Grad-CAM及其变体。表3分析了XAI技术:SHAP是模型无关、事后、基于特征的方法,提供局部和全局解释但计算昂贵;LIME是模型无关、事后、局部特征方法但局部保真度可能不反映真实模型行为;Grad-CAM和Grad-CAM++是CNN特定的视觉、事后局部解释,但限于CNN架构;LRP是神经网络特定的视觉局部事后方法,常需自定义修改。主要方法包括LIME、SHAP、Grad-CAM、Grad-CAM++、LRP。
**3.3 LIME**
LIME通过扰动输入数据并检测预测变化来识别重要特征,生成小加权样本集,输出显示突出关键区域的掩码。数学上,LIME训练的线性模型表示为:δ(z)=argmin_{a∈A} (L(f,a,π_z)+Ω(a)),其中L是损失函数,Ω是正则化项。
**3.4 Shapley加性解释(SHAP)**
SHAP值使用合作博弈论为每个特征分配对预测的影响。Shapley值φ_p=Σ_{S?N\{p}} (|S|!(|N|-|S|-1)!/|N|!) [f(S∪{p})-f(S)]。正值表示特征增加该类可能性,负值则降低。
**3.5 Grad-CAM**
Grad-CAM通过生成热图提供预测的视觉表示。公式:ω_k^c=(1/Z)Σ_pΣ_q ?y^c/?F_k^{pq};L^c=Σ_k ω_k^c F_k;M^c=ReLU(L^c)。热图M^c显示模型在预测特定类别时关注的MRI区域。
**3.6 层相关传播(LRP)**
LRP通过将预测分数逐层传播回输入,为每个输入特征分配贡献。初始相关性R_y=y,每层根据神经元贡献分解相关性:R_p=Σ_q (z_{pq}/Σ_p z_{pq}) R_q。高相关性区域被认为是最终预测的重要贡献者。
尽管XAI提供可解释性,但仍面临平衡准确性和清晰度、可扩展性、模型复杂性、用户理解限制和标准化不足等挑战。
**4 脑肿瘤诊断数据集**
本节分析公开可用的脑肿瘤分类数据集。一些数据集包含肿瘤和无肿瘤的MRI样本,如figshare、4类Kaggle和BR35H数据集;BRATS数据集涵盖低级别胶质瘤(LGG)和高级别胶质瘤(HGG);TCGA、TCAI和REMBRANDT数据集包括胶质瘤患者的MRI、基因组和临床数据。表4a显示数据集概览,图14分析显示大多数研究者使用figshare、TCGA和3或4类Kaggle数据集,BRATS数据集用于胶质瘤分级分类或分割,大多数研究使用单模态MRI数据集。
**5 可解释脑肿瘤分类(EBTC)中的预处理技术**
预处理解决类不平衡、数据集小、标注不足和数据收集变异等挑战。常用方法包括数据增强、强度归一化、去噪和图像合成。[77]采用Grad-CAM提取感兴趣区域并调整为224×224像素,再分割为28×28;[7]使用z-score归一化、旋转、随机翻转和强度修改;[28]使用条件生成对抗网络(cGAN)生成新MRI图像。表5列出常用预处理技术。
**5.1 数据增强**
通过翻转、旋转、缩放、变亮和添加噪声等方式编辑现有图像,解决标注MRI稀缺问题。
**5.2 颅骨剥离**
从头部图像中隔离非脑组织,集中处理脑结构。常用阈值法、分水岭分割和形态学操作。
**5.3 强度归一化**
通过min-max缩放(如0到1或0到255)或z-score归一化,消除不同MRI扫描仪和协议引起的强度差异,使模型关注结构模式而非亮度变化。
**5.4 对比度增强**
使用直方图均衡化或对比度受限自适应直方图均衡化(CLAHE)技术,突出肿瘤与健康组织之间的边界,提高分类准确性。
**5.5 图像合成**
使用生成对抗网络(GAN)生成逼真的MRI图像,扩大训练集多样性。
**5.6 作为预处理技术的XAI**
XAI方法如显著性图、Grad-CAM或LRP可突出MRI扫描中与模型预测最相关的区域,用于感兴趣区域(ROI)提取,引导裁剪和突出肿瘤区域,去除分散背景。
**6 可解释脑肿瘤分类(EBTC)的评估指标**
分类器性能指标包括准确率、精确率、敏感性、特异性、F1分数和ROC-AUC。准确率=(TP+TN)/(TP+TN+FP+FN)×100;精确率=TP/(TP+FP);敏感性=TP/(TP+FN);特异性=TN/(TN+FP);F1分数=2×精确率×敏感性/(精确率+敏感性)。
**6.1 XAI评估指标**
保真度衡量解释反映模型实际决策过程的质量;可解释性衡量人类理解解释的容易程度;稳定性衡量输入微小变化是否导致解释一致;有用性衡量解释对用户的价值;真值对齐评估解释是否指向已知或专家标注的显著特征。
**7 可解释脑肿瘤分类的近期工作**
近期工作调查了混合DL模型在可解释脑肿瘤分类中的应用,如表4和表5所示。[61]提出定制CNN,使用Grad-CAM、SHAP和LIME,预处理包括调整大小和去噪,在Nickparvar数据集上达99%准确率。[35]结合ResNet152V2和VGG16,使用Grad-CAM和SHAP,在Figshare、SARTAJ和Br35H数据集上达99.47%准确率。[63]训练EfficientNet模型,使用Grad-CAM解释,在Kaggle BT CE-MRI数据集上达98.60%准确率。[29]构建CNN-ViT混合架构(EFFResNet-ViT),使用Grad-CAM,99.31%准确率。[64]引入全局-局部双分支CNN,使用Grad-CAM,98.04%准确率。[36]开发GGLA-NeXtE
2NET模型,使用双分支集成和注意力可解释性,99.62%准确率。[21]混合ResNet-50、Xception和InceptionV3,使用Grad-CAM,99%准确率。[82]提出EfficientViT,使用SHAP和注意力机制,99.50%准确率。[39]提出DEFSwinE
2NET,使用Swin Transformer和EfficientNetV2S,基于注意力XAI,99.43%准确率。[53]结合CatBoost分类器和Vision Transformer,99.32%准确率。[43]构建依赖解释的CNN,使用深度可分离卷积和自注意力,Grad-CAM和SHAP解释,99.81%准确率。[78]开发定制CNN,使用Grad-CAM,94.51%准确率。[40]使用Vision Transformer和Deep CNN,Grad-CAM、SHAP、LIME和注意力XAI,91.61%准确率。[44]结合EfficientNetV2与GAM和ECA模块,使用LRP,99.76%准确率。[32]组合EfficientNetB0、DenseNet121和Xception,使用Grad-CAM,98%准确率。[8]开发IVX16(融合VGG16、InceptionV3和Xception加ViT),96.94%准确率。[19]结合Vision Transformers和GRU,99.808%准确率。[24]开发TumorGANet模型,结合ResNet50和GAN,99.53%准确率。[28]组合EffNet-B0和CNN,使用图像合成预处理,99.3%准确率。[7]开发RepOpt,结合VGG和重参数化,用于脑肿瘤分割。[46]实现CNN方法,使用BraTS 2019和2021数据集,98.62%准确率。[57]开发ARM-Net,使用Grad-CAM和Grad-CAM++分析。
**8 可解释脑肿瘤分类架构的比较分析**
比较分析显示:迁移学习模型(如EfficientNet、ResNet、DenseNet)准确率为96.94%-99.9%,EfficientNetB0达最高99.9%[32]。集成模型(如VGG16+ResNet152V2)达99.47%[35],提升约0.2%-1.5%但增加复杂度。混合网络(CNN+视觉Transformer/注意力/循环)更可靠,如ViT-GRU和自注意力CNN达99.81%[19,57],EfficientNetV2加注意力块达99.76%[44]。XAI方法如Grad-CAM、SHAP和LIME被广泛使用。总体上,混合深度学习模型在准确性和鲁棒性上优于迁移学习,但后者在效率和竞争力上仍有优势。
**9 可解释脑肿瘤分类中识别的研究空白**
**9.1 数据集挑战**:多模态数据集有限;泛化受限(仅单模态);类别不平衡;小数据集;机构变异;标注不完整。
**9.2 多模态整合挑战**:多模态方法未充分利用;基因组和生物标志物数据访问受限;多模态数据融合复杂。
**9.3 计算约束**:高计算成本;实时部署困难;可扩展性问题。
**9.4 可解释性和可解释性差距**:准确性与可解释性权衡;过度依赖视觉可解释性;缺乏以用户为中心的解释;多模态XAI未探索;XAI评估指标不足。
**9.5 部署和临床整合挑战**:缺乏实时验证;工作流整合困难;互操作性问题。
**9.6 隐私和安全问题**:患者数据保护;隐私保护学习使用不足;领域不匹配(预训练在自然图像上);小数据集过拟合;对3D支持有限;可解释性问题。
**9.7 使用混合DL模型的可解释脑肿瘤分类挑战**:高昂计算成本;需要大量数据;复杂可解释性;与3D数据结合;超参数调整;过拟合风险。
**10 可解释脑肿瘤分类的未来方向**
未来研究应基于大规模标准化多模态数据集,通过增强数据扩增解决有限和不平衡标注问题。需要开发高效模型(包括多模态融合和轻量级架构用于边缘AI),通过用户导向的多模态XAI改进可解释性,并通过联邦学习等保证隐私。混合模型应包含3D适应、集成XAI和自动超参数调整以正则化过拟合和提高可重复性。
**11 提出的多模态可解释脑肿瘤分类概念框架**
图16显示概念框架,旨在通过结合不同异构患者数据源(如临床数据和MR图像)进行完整诊断。每种信息源通过单独的混合DL模型处理,预测通过后期融合(丢失模态时有效)组合。采用层次决策方法:先进行肿瘤类型分类,然后进行胶质瘤分级。为了确保脑肿瘤分析中特定任务的解释和理解,采用可解释AI工具(如显著性图或激活图)。
**12 结论**
本研究强调了各种深度学习模型(包括Transformer架构、注意力机制、迁移学习和集成学习)对可解释脑肿瘤分类的变革性影响。通过将这些高级DL模型与可解释AI技术结合,弥合了预测能力和可解释性之间的差距,使临床医生能够信任并依据模型输出采取行动。混合深度学习架构(特别是集成CNN与Transformer和注意力机制的架构)在EBTC任务中实现最佳性能,而基于EfficientNet的迁移学习模型提供了有效且计算高效的替代方案。对数据集、预处理方法和基于DL的分类策略的全面综述为EBTC领域的进一步创新奠定了基础,并开启了面向多模态、可解释和临床影响解决方案的视角。