综述：深度学习用于脑肿瘤分析：多模态成像中CNN-Transformer混合模型的系统综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《International Journal of Biomedical Imaging》：Deep Learning for Brain Tumour Analysis: A Systematic Review of CNN-Transformer Hybrids in Multimodal Imaging

【字体：大中小】 时间：2026年06月19日 来源：International Journal of Biomedical Imaging 1.3

编辑推荐：

　　背景：使用医学影像进行脑肿瘤检测与分析需要同时提取局部空间特征和全局上下文表征。尽管卷积神经网络（CNN）擅长捕获局部空间模式，而基于Transformer的架构能有效建模长程依赖关系，但临床部署的最佳架构范式仍未解决。本系统综述和荟萃分析评估了用于脑肿瘤检测

背景：使用医学影像进行脑肿瘤检测与分析需要同时提取局部空间特征和全局上下文表征。尽管卷积神经网络（CNN）擅长捕获局部空间模式，而基于Transformer的架构能有效建模长程依赖关系，但临床部署的最佳架构范式仍未解决。本系统综述和荟萃分析评估了用于脑肿瘤检测的混合CNN-Transformer架构，重点关注局部和全局特征学习的整合、诊断准确性和计算效率。同时，严格审视了生成对抗网络（GAN）在解决数据稀缺性方面的作用以及多模态成像融合对诊断完整性的贡献。

方法：研究人员在IEEE Xplore、PubMed、Scopus和Google Scholar中对2021年1月至2025年5月间发表的研究进行了系统搜索。从最初识别的1876篇文章中，经过使用QUADAS-2和ROBINS-I框架的质量评估，有94篇符合预设的纳入标准。采用DerSimonian–Laird估计量对诊断准确性进行了随机效应荟萃分析，统计异质性通过I²量化，发表偏倚通过漏斗图不对称性和Egger检验评估。计算效率使用参考输入240 × 240 × 155体素（BraTS基准）标准化为GigaFLOPs（GFLOPs），其中FLOP估计值尽可能从原始出版物中获取，否则由理论复杂度公式限定，且估计值在整个过程中明确区分。

结果：在所有94项纳入研究中，合并诊断准确性为93.5%（95%置信区间：92.7%–94.4%）；然而，已确认的发表偏倚（Egger检验p = 0.043）表明这代表的是上限近似值而非无偏总体估计。由于亚组研究数量不足以进行正式的随机效应合并（仅CNN：n=3；仅Transformer：n=2；CNN-Transformer混合：n=4；每个亚组推荐最小n=10），未进行亚组荟萃分析。相反，仅作为产生假设的观察结果报告描述性平均准确性：仅CNN模型91.7%，仅Transformer模型93.6%，CNN-Transformer混合模型94.6%。这些数字不得被解释为合并的荟萃分析估计；它们反映了少数纳入研究的平均观察准确性，仅用于说明与混合化机制原理一致的方向性趋势。观察到显著的异质性（I²=78.3%；p<0.001）。识别出三种集成范式：顺序式（占模型的45%；准确性93.8%；1.8 GFLOPs）、并行式（32%；94.3%；2.8 GFLOPs）和层级式（23%；94.9%；3.5 GFLOPs）。并行架构在平衡准确性与平均推理时间2.1秒方面表现出最佳的临床可行性。基于GAN的数据增强将罕见肿瘤类别的检测提高了7%–10%，其中条件GAN优于普通架构。多模态MRI+PET融合在2.8 GFLOPs下达到94.2%的准确性，而三模态集成在显著增加的计算成本（9.1 GFLOPs）下仅带来边际额外增益（95.1%）。值得注意的是，65%的纳入研究仅使用了BraTS基准，混合模型准确性从高级别胶质瘤的94.6%下降至低级别胶质瘤的88.3%，且混合架构对高斯噪声的敏感性比仅CNN对应模型高2.3倍，这些局限性限制了在真实临床环境中的泛化。

结论：基于研究数量的观察平均准确性的描述性比较不足以进行确认性荟萃分析，表明混合CNN-Transformer架构可能比仅CNN和仅Transformer方法提供诊断准确性优势；这一观察仅为产生假设，需要在更大、更平衡的证据基础中进行验证。在集成策略中，并行架构在回顾的证据中表现出最有利的准确性-效率平衡。GAN和多模态成像作为必要的架构赋能器，分别解决数据稀缺性和诊断不完整性问题。在计算效率、噪声鲁棒性和对罕见肿瘤亚型的泛化方面仍存在重大挑战，这些是未来研究的优先方向。

该综述的主体部分按以下结构展开：首先在引言部分阐述了脑肿瘤诊断的临床背景与深度学习面临的挑战；随后详述神经肿瘤学背景与肿瘤分类体系，并逐层分析CNNs的局部特征提取优势与局限、Transformer的全局建模能力与数据饥饿问题、CNN-Transformer混合架构的三种集成范式（顺序式、并行式、层级式）及各自的性能-效率权衡，同时批判性评述了基于生成对抗网络（GAN）的数据增强机制及其关键失效模式（模式崩溃、解剖幻觉、训练不稳定、分布偏移），并探讨了多模态成像融合（磁共振成像MRI、计算机断层扫描CT、正电子发射断层扫描PET）带来的诊断增益与模态缺失、亚体素未对准等失效场景。方法部分描述了系统综述的PRISMA遵循流程、四数据库搜索策略、纳入排除标准，以及采用QUADAS-2和ROBINS-I工具进行的质量评估，并详细说明了数据提取方法（包括将计算效率统一标准化至240×240×155体素的BraTS基准GigaFLOPs）、随机效应荟萃分析（DerSimonian–Laird估计量）、异质性量化（I²）、发表偏倚评估（漏斗图与Egger检验），以及纳入亚组分析（因亚组样本量不足n<10，仅作描述性比较而非正式荟萃分析）。结果与讨论部分呈现了94项研究的合并诊断准确性为93.5%（95%CI:92.7%–94.4%），异质性显著（I²=78.3%, p<0.001），并指出发表偏倚（Egger检验p=0.043）导致该估计值为上限近似值。由于仅CNN（n=3）、仅Transformer（n=2）和CNN-Transformer混合（n=4）三个亚组研究计数过小，未进行正式随机效应亚组荟萃分析，仅报告描述性平均准确性作为产生假设的观察值：仅CNN模型91.7%，仅Transformer模型93.6%，CNN-Transformer混合模型94.6%。在集成范式比较中，顺序式（45%模型，93.8%准确性，1.8 GFLOPs）、并行式（32%，94.3%，2.8 GFLOPs）和层级式（23%，94.9%，3.5 GFLOPs）呈现递进性能但计算成本递增；并行架构在准确性（94.3%）与推理时间（2.1秒，低于术中决策支持的3秒阈值）间达到最佳临床权衡。GAN增强实验表明条件GAN对罕见肿瘤类别检测提升7%–10%，但67%的研究未实施独立的放射学验证，且评估指标Fréchet inception distance（FID）和结构相似性指数（SSIM）不能直接衡量临床诊断有效性。多模态MRI+PET融合达到94.2%准确性（2.8 GFLOPs），而三模态集成代价高昂（9.1 GFLOPs）仅带来边际增益至95.1%。混合模型在低级别胶质瘤上的准确性从94.6%降至88.3%，对高斯噪声的敏感性是仅CNN模型的2.3倍，且89%的研究排除了非增强肿瘤核心，导致评估偏差。讨论部分合成三种架构的机制性失败边界：CNNs受限于局部感受野，Transformers受限于数据需求，混合架构虽能同时缓解但在罕见亚型和噪声鲁棒性上产生新失效。结论部分再次强调亚组荟萃分析受限于样本量不足以提供确认性证据，并列出了未来研究方向，包括自动化神经架构搜索（NAS）、联邦学习、模态鲁棒训练、GAN生成图像的标准化放射学验证，以及对抗鲁棒性测试作为混合模型验证的必要组成部分。

联系信箱：

粤ICP备09063491号

热点排行