综述:AI驱动图像分析在肉瘤诊断中的进展:一项综合性范围综述

《Computer Methods and Programs in Biomedicine Update》:Advances in AI-driven image analysis for sarcoma diagnosis: A comprehensive scoping review

【字体: 时间:2026年06月18日 来源:Computer Methods and Programs in Biomedicine Update CS9.8

编辑推荐:

  鉴于肉瘤早期罕见表现出明确症状,其检测具有挑战性。此外,对于病理学家而言,从医学图像中准确诊断和分类肉瘤也可能很困难。为了解决这些问题,研究人员使用了多种人工智能(AI)模型从影像数据中预测和分类疾病,包括机器学习(machine learning, ML)、

  
鉴于肉瘤早期罕见表现出明确症状,其检测具有挑战性。此外,对于病理学家而言,从医学图像中准确诊断和分类肉瘤也可能很困难。为了解决这些问题,研究人员使用了多种人工智能(AI)模型从影像数据中预测和分类疾病,包括机器学习(machine learning, ML)、深度学习(deep learning, DL)、Transformer、GPT系列、大语言模型(large language models, LLMs)以及最新进展之一的多模态大语言模型(multimodal LLMs, MLLMs)。为将本研究置于背景中,本研究对近期关于肉瘤诊断和分类的研究进行了综合性范围综述。研究人员在著名期刊、书籍和会议论文集中定位了相关文章,并总结了每项研究的目标、数据集、使用的方法、结果和局限性。研究人员的目的是识别近年来基于AI的肉瘤诊断技术,这些技术依赖不同的影像模态,包括磁共振成像(MRIs)、计算机断层扫描(CT scans)、X射线(X-rays)和病理切片(pathology slides)。研究人员发现卷积神经网络(CNNs)、支持向量机(SVMs)、k-最近邻(k-NN)、决策树(decision trees)及其变体已被广泛用于图像分类。此外,Transformer和混合模型(hybrid models)越来越多地被用于提升性能,多项研究报告了高水平的准确率。然而,由于有限的研究对其模型性能进行外部验证或使用多机构数据,泛化性(generalisability)仍是一个关键挑战。本文还讨论了这些研究的局限性以及可能有助于专家的未来研究方向。一个专门部分总结了GPT/LLMs在肉瘤诊断中的早期应用,强调了其初步性质以及需要人类监督、可靠性评估和验证。文章结论部分概述了在当前环境下应用AI解决问题的挑战,指出数据隐私(data privacy)、监管不确定性(regulatory uncertainty)、数据集透明度(dataset transparency)和外部验证(external validation)等问题。在从放射学和病理学影像诊断肉瘤方面,还需要有校准报告(calibrated reporting)。
**1. 引言**
肉瘤(sarcomas)是罕见且高度分化的恶性肿瘤,约占成人肿瘤的1%,依据2020年WHO分类,有超过100种组织学亚型,具有显著的分子异质性和组织病理学模仿性。它们起源于骨骼和软组织,主要类型包括软组织肉瘤(soft tissue sarcomas)、骨肉瘤(bone sarcomas)和胃肠道间质瘤(gastrointestinal stromal tumours, GIST)。早期肉瘤缺乏特异性症状,诊断极具挑战性,且其罕见性和众多亚型常导致数据集较小,限制了机器学习和深度学习模型的泛化性。不同亚型间的生物学和放射学异质性对医学图像解读和AI模型泛化构成重大挑战,凸显了亚型感知评估和验证策略的必要性。传统机器学习方法如支持向量机(SVM)和随机森林(Random Forests)在较小的数据集上表现良好,但依赖手动或半自动肿瘤分割和广泛特征工程,限制了可扩展性和可重复性。深度学习(deep learning, DL)作为机器学习的一个子集,能自动从原始图像中学习层次化特征表示,常用架构包括卷积神经网络(CNNs,如ResNet、DenseNet)、视觉Transformer(vision Transformers)以及多模态方法。近期,GPT系列的大语言模型(LLMs)也被探索用于临床决策支持,但其在肉瘤中的应用仍高度初步。本综述全面评估了用于从放射学和组织病理学图像中诊断和分类肉瘤的AI方法,包括传统机器学习、深度学习(CNNs、Transformer)、GPT系列、LLMs和多模态LLMs,并讨论了泛化性、临床转化、外部验证和校准等问题。本综述有三项新颖贡献:首次整合CNNs、视觉Transformer和LLMs用于肉瘤诊断;首次系统量化肉瘤AI研究中的外部验证率;批判性评估GPT/LLM系统在肉瘤相关决策支持中的早期作用。结果显示,仅有13%的纳入研究进行了独立外部验证,最佳模型在60%案例中仅与人类共识相符。

**1.1 研究问题**
本范围综述综合了使用AI通过放射学(MRI、CT、X-ray)和组织病理学诊断肉瘤的同行评审研究。针对每项研究,记录了数据来源、数据队列、预处理技术、模型架构、评估指标、研究局限性和建议的未来方向。旨在回答以下问题:哪些AI方法被用于通过放射学和病理学诊断和/或分类肉瘤?使用了什么类型的数据集训练模型?模型性能如何评估?肉瘤分类和临床转化的关键挑战和未来方向是什么?此外,评估了验证策略(内部与外部)、数据集透明度以及AI系统在临床决策支持和研究中的应用成熟度。

**2. 方法**
本范围综述遵循PRISMA-ScR框架进行,以确保透明度和可重复性。检索文献覆盖2018年至2025年的出版物,最终检索于2025年10月进行。检索的电子数据库包括Scopus、PubMed、Web of Science、Elsevier和Google Scholar,共识别732条记录。采用迭代关键词组合,分两阶段筛选:标题和摘要筛选及全文审查。最终纳入61项研究进行定性综合。

**2.1 检索策略**
检索数据库后共识别732条记录,通过参考文献筛选额外识别19条记录。去除重复后,497项研究进入标题和摘要筛选,其中384项被排除,113篇全文文章评估合格性,58篇因预定标准被排除。参考文献中19条记录中13篇在全文评估后被排除,最终61项研究纳入定性综合。

**2.2 合格性标准**
纳入直接应用机器学习、深度学习、Transformer、GPT系列或LLMs诊断肉瘤、提供预后或使用医学影像分类肉瘤亚型的期刊文章、会议论文和书籍章节。合格研究必须报告性能指标,使用放射学或组织病理学影像,并提供足够的方法学细节以便重复。排除标准包括:不涉及肉瘤、非图像数据、非AI应用、纯分子或基因组分析。

**2.3 数据收集和研究分类**
从每项纳入研究中提取数据集特征、模型架构、验证策略、性能指标和报告的局限性。验证方法分类为:内部验证(单一训练/测试分割,含交叉验证)、外部验证(独立不同机构数据集)、患者级别与补丁级别评估。将准确率超过95%但未外部验证的研究标记为潜在过拟合。最终61项研究按原发性肿瘤类型分为骨肉瘤、软组织肉瘤和胃肠道间质瘤。因本工作为范围综述,未进行正式偏倚风险评分,但对数据集大小、验证方法、类别平衡处理和数据集透明度进行了定性分析。

**3. 基于AI的分析技术**
本部分解释了用于分类肉瘤的基于AI的技术,共分析了22种不同技术。基于CNN及其变体的架构占深度学习应用的42%,传统机器学习方法占29%,Transformer和GPT/LLM方法占10%。在61项研究中,78%主要依赖内部交叉验证策略,13%进行了独立外部验证。约29.5%的研究明确通过增强或重采样处理类别不平衡。少于10%的研究报告了校准曲线、置信区间和不确定性估计。

**3.1 卷积神经网络(CNNs)**
CNN是最常用的模型,通过多反向传播层自适应学习层次特征。常用架构包括Inception、VGGNet、EfficientNet、DenseNet、ResNet和Xception。在骨肉瘤诊断中,多项研究探索了深度神经网络和CNN,例如用于诊断脊柱病变、骨肿瘤检测和化疗反应预测。在软组织肉瘤方面,CNN被用于分析乳腺X线照片、区分高低级别软组织肉瘤、鉴别良恶性软组织肉瘤以及横纹肌肉瘤分类。胃肠道间质瘤研究则基于CNN进行恶性预测。CNN架构在多个亚型中表现出强劲性能,但因数据集大小、验证策略和成像模态的差异,直接比较存在问题。

**3.2 支持向量机(SVM)**
SVM是一种监督学习算法,在高维特征空间中通过构建最优超平面最大化类别分离,适合放射组学工作流。多项研究将SVM应用于骨肉瘤和软组织肉瘤分析,包括肿瘤分类、分级和鉴别诊断。与深度学习方法相比,SVM通常用于较小的数据集且依赖放射组学特征,外部多中心验证不常见。

**3.3 逻辑回归(Logistic regression)**
逻辑回归是一种经典统计学习方法,在肉瘤成像研究中常用于放射组学工作流,例如用于骨病变分类、子宫肌瘤术前评估、肌纤维瘤鉴别和软组织肉瘤预测。这些模型通常应用于结构化放射组学特征,依赖特征工程质量,主要采用内部验证策略。

**3.4 决策树和随机森林(Decision tree and Random Forest)**
决策树和随机森林在肉瘤诊断中用于放射组学管道,例如通过MRI图像分类软组织肿瘤。四项研究使用随机森林研究软组织及其亚型,一项研究同时使用决策树和随机森林检测横纹肌肉瘤。这些方法应用于中等规模数据集,外部验证较少。

**3.5 集成学习(Ensemble learning)**
集成学习通过组合多个模型提升预测性能,在肉瘤研究中用于分类任务,例如混合集成框架结合多个分类器。集成策略比单一分类器更稳健,但依赖于结构化特征提取,且主要进行内部评估。

**3.6 迁移学习(Transfer learning)**
迁移学习利用预训练模型(如ImageNet、RadImageNet)改善肉瘤成像中的性能,尤其适用于数据有限的情况。研究显示,通过迁移学习,可以减轻训练不稳定性并提高特征提取效率,如用ResNet-50诊断胃肠道间质瘤达到AUC 0.94,用视觉Transformer分类儿童骨肿瘤达到89.1%准确率。

**3.7 K-最近邻(K-Nearest Neighbour, KNN)**
KNN是一种简单的监督分类技术,在肉瘤研究中被用于与其他机器学习模型比较,但因其对特征空间敏感,未作为主要分类方法广泛采用。

**3.8 掩码注意力掩码变换器(Masked-attention mask transformer)**
即Mask2Former,一种新颖的Transformer架构,用于图像分割,在骨肿瘤识别和分割中辅助活检决策,但在肉瘤诊断中不如CNN分类器常见。

**3.9 朴素贝叶斯(Naive Bayes)**
朴素贝叶斯是一种基于贝叶斯定理的概率分类器,在肉瘤成像研究中主要用于比较实验,未作为主要建模策略广泛采用。

**3.10 LLM/GPT系列**
涉及GPT/LLMs分析肉瘤的研究包括临床决策支持、问答(含检索增强生成)、影像相关推理、指南对齐和病理文本提取。多学科肉瘤肿瘤委员会模拟显示ChatGPT-4o与专家建议中度一致(60%-75%)。RAG方法可提高答案准确性和来源透明度。LLM诊断性能因任务而异,图像解读灵敏度约40%-65%,文本任务如指南检索准确率约85%-92%。总体而言,这些模型更可靠作为临床信息助手,而非主要诊断工具。评估LLM需要额外保障措施,包括幻觉风险评估、校准分析、模型版本透明度、与多学科专家共识的结构化比较以及临床医生循环验证。

**3.11 基于任务的研究**
纳入研究按主要诊断目标分类:检测、分类、预后预测、监测和多任务/临床决策支持。多数研究集中于分类任务,LLM研究主要属于临床决策支持类别,反映当前研究重点在于分类性能而非全面临床工作流整合。

**3.12 AI架构家族比较**
CNN模型在肉瘤成像中最为成熟,广泛测试于放射学和病理学数据集并兼容迁移学习。视觉Transformer提供更强的全局上下文建模但验证较少。传统放射组学机器学习对小数据集和可解释性有用但依赖特征工程。混合模型可能在性能和可解释性间取得平衡。整体上,CNN和传统ML最成熟,Transformer、混合模型和LLM系统需要更多多中心验证。

**4. 肉瘤研究中使用的数据集**
高质量标注的医学影像数据集对于开发基于AI的肉瘤诊断工具至关重要。中位数样本量为344,因亚型和模态差异显著。约82%的研究依赖单一中心数据集,18%使用多中心数据;75%使用私有数据集,25%使用公共基准。单中心数据可能限制外部验证并增加过拟合风险。数据透明度是重大局限,许多研究未公开数据集,限制可重复性和独立基准测试。不同肉瘤亚型的数据模态多样,骨肉瘤研究多使用MRI、X-ray、WSI等,GIST研究主要基于CT和超声,软组织肉瘤研究使用MRI、超声、CT、X-ray、WSI等。多数数据集属于回顾性、私有和内部验证限制。

**5. 基于AI的肉瘤研究中使用的性能评估模型**
常用评估指标包括准确率和AUROC,但校准指标如Brier分数和校准曲线在不到10%的研究中报告,使得预测可靠性评估困难。

**5.1 准确率(Accuracy)**
准确率用于衡量正确分类的比例,在21项研究中使用。报告值范围73.4%到100%,中位数89.2%。但超过95%准确率的研究通常仅依赖内部验证,未使用独立外部队列,引发过拟合担忧。仅有约5%的研究将模型性能与人类专家进行直接比较,且结果不一致,凸显需要标准化的人-AI比较协议和外部验证评估。

**5.2 AUROC**
AUROC是二元诊断分类性能指标,在12项研究中用作性能指标。报告AUC值范围0.77到0.99,中位数0.89。但仅有8项研究(13.1%)报告了AUC的95%置信区间,且常缺少对应的敏感度-特异度操作点。约70%的研究在补丁级别评估性能,仅25%报告患者级别验证,补丁级别性能通常比患者级别高5%-15%,可能高估真实诊断性能。外部验证仅在13%的研究中报告。

**6. 讨论**
本综述呈现了2018-2025年间肉瘤自动诊断的最新研究,首次系统综述CNNs、视觉Transformer和LLMs在放射学和组织病理学中的应用。识别出61项研究,发现肉瘤自动分类和诊断极具挑战性,因为肿瘤罕见、超过100种亚型的分子异质性以及大型标注数据集有限。

**6.1 观察**
约82%研究依赖单中心数据集,18%使用多中心数据;75%为私有数据集。组织病理学是最主要的成像模态(28%),其次为MRI(26%)。78%研究依赖内部训练/测试分割验证,13%报告独立外部验证。患者级别验证占25%,70%仅在补丁级别评估。校准指标报告不足,类别不平衡普遍但仅少数研究明确处理。CNN模型被广泛使用,准确率范围73.4%-100%,AUC范围0.77-0.99。CNN模型AUC中位数0.89,传统ML中位数0.85,混合模型中位数0.91。

**6.2 基于肉瘤诊断研究中使用的技术的比较分析**
分类肉瘤图像需要复杂深度架构,带来计算负担。缺乏标准基准数据集是主要限制。早期GPT/LLM应用表现差异大,最佳模型仅与人类共识在60%案例中匹配。RAG方法显示出潜力,但仍存在幻觉风险、缺乏外部验证和校准概率输出等关键局限。

**6.3 挑战和未来前景**
核心问题包括高质量标注数据集短缺、临床工作流整合困难、AI可解释性不足、监管和伦理问题。早期GPT/LLM研究有前景但初步,需标准化报告指南包括校准分析、置信区间和外部验证。未来方向包括:开发国际数据库、实施联邦学习、多模态数据整合、推进可解释AI、标准化报告指南、以及针对肉瘤LLM纳入基于指南的RAG和校准概率输出。

**7. 结论**
机器学习和深度学习技术提升了从复杂医学图像自动诊断肉瘤的能力。CNN模型是主导方案,但多数数据集小、私有且不平衡,-外部验证不常见,导致报告准确率可能不具泛化性。早期GPT/LLM工作显示出总结病例和辅助临床指南解读的潜力,但尚处于初步阶段。未来需要多中心合作、标准化基准和可解释AI整合以实现临床转化。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号