综述：医学影像中基于学习的分类方法研究现状综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Annals of Biomedical Engineering》：Overview of State-of-the-Art Learning-Based Classification Methods in Medical Imaging

【字体：大中小】 时间：2026年06月18日 来源：Annals of Biomedical Engineering 5.4

编辑推荐：

　　基于学习的图像分类已成为现代医学影像的核心组成部分，但该领域正在快速演变：基础模型、视觉-语言模型（VLMs）以及标签高效预训练正在重塑哪些方法在临床上真正具有应用价值。该综述聚焦于当前最先进技术，而非重复阐释已被充分建立的经典模型。研究人员总结了多种学习范式

基于学习的图像分类已成为现代医学影像的核心组成部分，但该领域正在快速演变：基础模型、视觉-语言模型（VLMs）以及标签高效预训练正在重塑哪些方法在临床上真正具有应用价值。该综述聚焦于当前最先进技术，而非重复阐释已被充分建立的经典模型。研究人员总结了多种学习范式，对经典机器学习（ML）与深度学习（DL）模型家族进行了对比，并重点强调了与临床转化最相关的进展，包括医学基础模型、多模态视觉-语言模型（VLMs）、混合卷积神经网络-Transformer（CNN–transformer）架构、基于扩散模型的增强、自监督预训练、联邦学习以及高效部署。文章还讨论了不同成像模态中的特异性问题，涵盖X线（X-ray）、计算机断层成像（CT）、磁共振成像（MRI）、正电子发射断层成像/单光子发射计算机断层成像（PET/SPECT）、超声、光学相干断层成像（OCT）、内镜、显微成像以及光学/分子/红外成像，因为模型选择高度依赖于图像结构、标注成本与临床工作流程。最后，文章概述了持续存在的临床挑战，包括数据多样性与偏倚、罕见病检测、标注噪声、可解释性、校准性以及公平性能，并讨论了缓解这些问题的方法。其目标是为生物医学工程师和临床医生提供一份紧凑且具有临床依据的参考，用于在真实医学工作流程中选择并验证基于人工智能（AI）的分类器。

Introduction
文章指出，基于人工智能（AI）的分类技术已由早期的研究性探索发展为具有明确临床意义的工具，可服务于分诊、筛查、二次阅片以及决策支持等多种医学影像场景。其临床价值不仅体现在准确率提升，更在于能够促进疾病早期检出、降低阅片者间差异、缓解高负荷工作清单压力，并捕捉传统手工分析难以稳定识别的高维细微模式。深度学习（DL）的端到端表征学习推动了这一转变，而基础模型与视觉-语言模型（VLMs）的兴起则进一步改变了医学人工智能的构建与部署方式，使单一预训练骨干网络能够适配多种下游任务，并显著降低标签需求。与此同时，文章强调，医学领域的真实应用仍受制于标签稀缺或噪声、严重类别不平衡、人口学与扫描仪分布偏移、监管与隐私要求，以及对透明、可校准且公平预测的需求。因此，该综述将重点放在能够直接缓解临床瓶颈、提升数据效率、增强模态适配性、支持多模态推理并兼顾部署效率的前沿方法上。

Literature Search
在文献检索部分，文章说明研究人员在Google Scholar、PubMed和IEEE Xplore中进行了更新的系统性检索，重点关注2023—2026年间关于医学图像分类中机器学习（ML）/深度学习（DL）方法的研究，以捕捉基础模型、视觉-语言模型（VLMs）、扩散模型以及混合Transformer等最新进展。对于较早的研究，仅保留那些仍具有基础性和不可替代性的代表性工作。纳入标准强调临床相关性、新型架构、外部验证以及对诊断工作流程的实际影响；而仅涉及非影像数据、仅关注分割/检测而无分类任务、或缺乏医学评估的方法学说明则被排除。由此可见，该综述在选材上更关注“可临床转化的先进性”而非单纯算法罗列。

Learning Paradigms in Medical Imaging
文章将医学图像分类概括为四类互补学习范式：监督学习、半监督学习、自监督学习（SSL）和无监督学习。作者指出，当下对学习范式的选择不再主要由算法偏好决定，而更多取决于标注成本以及有标签与无标签数据的比例。监督学习结合迁移学习仍是胸部X线、视网膜OCT、CT以及多种MRI任务的常规默认方案，原因在于这些场景已有较成熟的图像级标签与公开基准数据集。半监督学习则更适用于无标签图像丰富但专家标注昂贵、带噪或高度依赖领域知识的情境，例如超声、组织病理学、内镜和部分MRI任务，其核心优势在于可借助一致性正则化、伪标签和互学习机制有效利用未标注样本。自监督学习（SSL）已成为放射学与病理学中的主导预训练策略，尤其适用于拥有海量未标注数据的胸片数据库与超大幅数字切片场景；对比学习与掩码自编码器方法已经构成多数医学基础模型的核心，并逐步发展出面向CT/MRI的三维感知框架以及面向脑MRI的模态定制骨干网络。无监督方法则主要用于异常检测和表型发现，而非封闭集诊断，其中脑MRI和显微成像受益最为显著。总体而言，该领域的主流趋势是多种策略组合使用，例如先进行自监督预训练，再进行监督微调，或叠加弱监督/主动标注机制，从而最大化有限专家时间的价值。

Modality-Specific Considerations
文章强调，医学影像中的有效方法选择不仅取决于算法，还深受成像模态本身特性的制约。不同模态在维度、信噪比、标注负担和临床流程上存在显著差异，而这些差异往往决定模型能否真正落地。对于X线摄影，由于存在较大规模的公开标注数据集，迁移学习卷积神经网络（CNNs）以及基于图像-报告配对数据预训练的视觉-语言模型（VLMs）构成主要路径，并在标签效率和短语定位方面展现优势。CT分类主要依赖三维（3D）与2.5D卷积网络，近期则进一步发展出肺部专用基础模型，将诊断、重建和图像增强纳入统一框架，但仍需处理层厚各向异性、金属伪影与剂量噪声等特定问题。MRI被认为是最适合自监督学习（SSL）和模态定制预训练的场景，因为其数据集通常规模较小、协议复杂且维度高；脑MRI专用预训练在诊断任务和跨中心分布偏移鲁棒性方面优于通用ImageNet骨干。对于功能连接和静息态功能磁共振成像（rs-fMRI）分析，图神经网络（GNNs）因能够显式刻画脑区间关系结构而更具优势。PET和SPECT通常与解剖学CT/MRI联合分类，主要通过多模态注意力融合利用其功能成像优势。超声由于操作者依赖性强且噪声较高，半监督学习和迁移学习CNN仍最可靠，而在乳腺和产科影像中注意力模块与CNN–RNN混合结构具有特定价值。眼科中的OCT受益于去噪和层结构感知归一化，并逐渐引入跨眼底、OCT与血管成像联合训练的多模态VLM。内镜与显微成像则面临显著域偏移问题，因此更依赖半监督学习、颜色/风格归一化以及无监督形态学表征。对于光学、分子与红外成像，由于数据集规模小且标准化不足，少样本学习、数据增强和域适应更具实际意义。

Classical Machine Learning Models
在经典机器学习模型部分，文章认为传统机器学习（ML）在输入规模较小、结构化程度高且强调可解释性的场景中仍具有明确临床价值，尤其适用于放射组学驱动研究和特征工程流程。作者并未重复介绍支持向量机（SVM）、决策树、随机森林（RFs）、K近邻（KNN）和梯度提升树（GBTs）的基础原理，而是强调其在近期医学研究中的实践指引。综合相关基准结果，SVM适合小样本、二分类脑MRI放射组学特征；RF更适用于中等规模、特征混合的CT/MRI表型表格；GBTs如XGBoost、LightGBM和CatBoost则在异质性强、亚型结构复杂的任务中更具优势，例如超声放射组学和乳腺MRI。KNN通常不适合作为高维放射组学任务的主模型，更适合作为降维后的基线模型。单棵决策树仅在需要明确、可审计规则时具有意义，否则通常被集成模型所超越。不过，集成方法在高噪声或调参不足时仍面临过拟合风险。文章还特别指出，深度特征提取器与经典分类器相结合的混合流程已较为常见，例如用DenseNet提取特征后接XGBoost进行乳腺组织病理分类，这类组合在某些场景中比单独使用任一组件更稳健。

Deep Learning Models
对于原始像素级医学分类任务，深度学习模型已成为默认选择。文章指出，卷积神经网络（CNNs）如ResNet、DenseNet、EfficientNet和MobileNet仍是静态单模态医学图像的最强基线，尤其广泛用于胸部X线、乳腺摄影、眼底/OCT以及多类CT/MRI任务，其可解释性常借助Grad-CAM/CAM实现。循环神经网络（RNN）、长短期记忆网络（LSTM）和门控循环单元（GRU）在运动或帧顺序携带诊断信号的任务中仍有价值，如电影MRI、超声心动图与内镜视频，但若时序信息并非关键，则其复杂度增加往往无法带来相称收益。生成模型方面，领域重心已由仅依赖生成对抗网络（GANs）的增强转向扩散模型。扩散模型训练更稳定，可产生更加多样的合成图像，并在类别不平衡医学数据中的少数类增强上表现突出，同时也被用于异常建模与图像到图像转换，但其计算成本更高。视觉Transformer如ViT、DeiT和Swin主要在需要全局上下文且具备大规模预训练支持时优于CNN；而在小样本医学队列中，混合CNN–ViT结构和基于蒸馏的ViT通常是更务实的折中方案。带注意力机制的CNN在病灶区域较小的场景中仍非常实用，例如肺结节检测和PET/CT融合。图神经网络（GNNs）则更适合真正的关系建模问题，如基于rs-fMRI/弥散张量成像的脑连接分析，以及细胞/腺体层面的组织病理结构分析。

Medical Foundation Models and Vision–Language Models
文章认为，医学图像分类近期最具决定性的进展，是在大规模未标注或弱标注医学语料上训练的基础模型的崛起。这类模型能够以远少于任务特异训练所需的标签数量适配多种下游任务，从而将分类范式由单任务管线转变为可扩展的通用骨干框架。在数字病理学中，针对超大幅全视野切片的预训练已经产生了在多类癌症分型基准上达到最先进水平的骨干模型；在放射学中，肺CT视觉基础模型已能够在同一框架中同时支持疾病诊断、图像增强与重建；在癌症影像领域，这些基础模型还可提升小样本条件下的下游生物标志物学习能力。眼科和皮肤科也已出现跨模态眼科基础模型与达到专家级性能的多模态视觉基础模型。视觉-语言模型（VLMs）则进一步通过图像与文本联合学习扩展了这一范式，使零样本和少样本分类、跨模态检索以及图像支撑推理成为可能。文中提到，胸部X线场景中结合既往图像与报告信息的VLM能够提升分类与短语定位性能；引入临床知识的胸部放射预训练框架进一步增强了表示能力；而医学问答模型与会话式生物医学VLM则展示了影像支撑推理与语言交互结合的潜力。然而，作者也强调，对通用多模态模型的评估仍需谨慎，其报告生成能力可能优于视觉定位能力。临床医生参与闭环评估的研究表明，当前VLM可辅助报告起草和流程效率优化，但由于自动评价指标难以覆盖临床安全性，专家审阅仍不可或缺。更重要的是，某些胸部放射学VLM在边缘化人口学群体中的漏诊程度高于放射科医师，说明偏倚审计必须成为部署前的必要环节。

Data Strategy, Transfer Learning, and Federated Learning
文章指出，数据策略已与模型选择同等重要，模型性能高度依赖于数据集规模与多样性、标签质量以及训练与部署之间的分布偏移程度。除数据增强外，小样本场景中最关键的策略包括弱监督、主动学习、少样本/元学习、半监督或自监督预训练，以及通过代价敏感损失或扩散增强处理类别不平衡。迁移学习依然是几乎所有医学分类器的实践基线，即利用在ImageNet或大型医学档案上预训练的模型进行目标任务微调，以显著降低数据与计算需求；当源域与目标域更接近时，其效果通常优于通用自然图像预训练。联邦学习（FL）则针对医学数据分散且敏感的特征，通过跨机构训练而不共享原始图像来实现隐私保护。胸部X线与MRI肿瘤研究表明，联邦模型可达到或接近集中式训练性能，同时避免直接数据汇聚。由于扫描仪、协议与人口学差异带来的跨站点异质性会削弱传统FedAvg的稳定性，因此FedProx、半监督异构迁移、安全聚合与差分隐私等方法被用于提升鲁棒性并降低信息泄漏风险。作者同时指出，联邦学习虽有助于满足HIPAA和GDPR等隐私合规要求，但并不能替代伦理审批和本地数据治理。

Model Complexity, Efficiency, and Deployment
在部署层面，文章强调临床采纳并不只取决于准确率，模型的存储占用、推理时延与能耗决定其能否适配医院工作站、超声设备或便携终端。当前发展方向明显指向更小型、更快速、更加适合流式处理的模型设计。例如，渐进式流处理已被证明可以在不损害诊断性能的前提下将分类吞吐量提升至三倍以上。量化、剪枝和知识蒸馏能够在仅带来极小精度损失的情况下，将模型尺寸缩减约2–4倍；同时，自动机器学习（AutoML）与架构搜索也日益用于寻找可部署的高效变体。文章对量子增强算法持审慎态度，认为其在特定子问题上具有潜力，但尚缺乏持续、稳定优于强经典基线的临床证据。因此，真正影响落地成效的往往不仅是模型速度本身，更是其与临床工作流的整合能力。

Clinical Limitations and Risk Factors
文章进一步总结了影响分类器临床转化的主要风险因素。首要瓶颈是数据集多样性与人口学代表性不足：在同质化队列上训练的模型往往会在年龄、性别、族群、扫描仪与地域分布不足代表的群体上性能下降，并可能在皮肤科和胸部放射学中造成实际伤害。因此，多中心数据收集、联邦训练与显式亚组审计已被视为最低要求而非附加优化。类别不平衡与罕见病检测需要重采样、代价敏感损失以及经过外部验证的合成增强。文中还特别强调了患病率偏移问题：若训练集因提高敏感性而人为富集罕见病样本，则模型在真实低患病率人群中可能出现阳性预测值降低和假阳性率升高，因此部署前必须依据真实基线患病率重新校准阈值。标注噪声与观察者间变异也持续限制监督学习性能，常见缓解策略包括共识标注、噪声标签建模、切片级弱监督训练以及将专家精力集中于不确定样本的主动学习流程。可解释性则被认为是临床信任建立中最大的非技术障碍，尽管Grad-CAM式显著图、基于注意力的解释、反事实推理和概念归因方法均有帮助，但单一方法不足以满足临床可操作性，必须与校准和验证联合使用。监管框架也日益强调亚组性能、上市后监测以及临床医生在环监督，而不仅仅是基准测试准确率。

Future Directions
关于未来方向，文章提出医学图像分类的近期演进将由四种相互作用的力量主导。其一，基础模型与视觉-语言模型（VLMs）正逐渐取代任务特异性CNN，成为跨放射学、病理学、眼科和皮肤科的默认起点，并可将标签需求降低一个数量级。其二，硬件感知设计、量化、蒸馏、稀疏化、流式管线与端侧推理对部署的重要性将超过单纯追求模型规模。其三，多模态推理将逐步融合图像、报告、既往检查、实验室数据以及结构化临床元数据，使分类任务演化为更完整的决策支持过程。其四，公平性、校准性与偏倚审计将成为监管者与临床医生的共同要求，否则即便达到专家级性能的模型也可能放大健康差异。文章认为，量子加速可能是更长期且更具选择性的补充方向，而最值得期待的未来并非某一单一模型家族，而是一个统一的、模态感知的、标签高效的、隐私保护的且可审计的生态系统，其中不同方法依据临床情境进行选择。

Conclusion
在结论部分，文章指出医学图像分类已进入模型选择、数据策略与部署现实性不可分割的阶段。经典机器学习（ML）在放射组学与可解释流程中仍保有明确地位；卷积神经网络（CNNs）依旧是许多临床任务中的强默认基线；Transformer及混合架构在全局上下文需求与大规模预训练相匹配时表现领先；而基础模型与视觉-语言模型（VLMs）则因其标签效率和多模态推理能力，正在迅速成为新的起点。无论采用何种模型，真正决定临床影响力的因素包括多样且特征明确的数据、标签高效训练策略、借助联邦学习（FL）实现的隐私保护协作，以及面向部署的效率优化。同样关键的是，分类器在临床发布前必须具备良好校准性、可解释性，并在不同亚群体中完成充分验证。文章最终强调，最有价值的系统未必是规模最大的系统，而是最具适应性、最公平并且最能融入真实诊断工作流程的系统。

联系信箱：

粤ICP备09063491号

热点排行