提高骨肉瘤生存预测准确性:集成SEER和NCDB数据集的多组分模型机器学习方法与传统单数据集建模方法的比较研究

《JBI Evidence Synthesis》:Enhancing Osteosarcoma Survival Predictions: A Comparative Study of a Multicomponent-Model Machine Learning Approach Integrating SEER and NCDB Data Sets Versus Conventional Single-Data-Set Modeling

【字体: 时间:2026年05月28日 来源:JBI Evidence Synthesis 4.5

编辑推荐:

   摘要 通俗语言摘要 背景: 骨肉瘤的治疗决策需要准确的预后评估,然而使用机器学习(ML)模型存在问题,因为当模型应用于不同数据集时,其性能会持续下降。目前基于单一数据集的模型只能

  

背景:

骨肉瘤的治疗决策需要准确的预后评估,然而使用机器学习(ML)模型存在问题,因为当模型应用于不同数据集时,其性能会持续下降。目前基于单一数据集的模型只能学习特定人群的模式,而无法掌握具有普遍性的疾病特征,这限制了它们的临床应用。我们开发了一个多组件模型(多模型)ML框架,通过在两个国家级注册系统中进行领域对抗性训练,将结构化的临床变量与基于文本的患者数据相结合,以学习具有普遍性的疾病模式,并实现对不同人群的可靠生存预测。

方法:

我们使用来自两个国家级癌症注册系统的数据进行了回顾性研究:SEER(监测、流行病学和最终结果;n = 4,278名患者,2004年至2015年)和NCDB(国家癌症数据库;n = 4,049名患者,2004年至2018年)。我们比较了单一模型与多模型在跨数据集上的性能。主要评估指标包括2年和5年总生存预测的绩效指标,通过接收者操作特征曲线下面积(AUC)、精确度、召回率、F1分数和Brier分数来衡量。

结果:

单一模型在内部验证中表现良好(AUC为0.898至0.927),但在跨数据集验证中的性能显著下降(AUC为0.563至0.665)。多模型方法在2年生存率的跨数据集AUC为0.708至0.843,在5年生存率的跨数据集AUC为0.648至0.798,所有评估指标上均比单一模型提高了0.085至0.199。

结论:

多模型ML方法在多个医疗数据集中展示了改进的骨肉瘤预后能力,解决了基于单一数据集的模型的泛化挑战。跨数据集性能的提升表明,该方法有潜力用于指导手术计划、辅助治疗选择和患者咨询。需要前瞻性验证来评估其临床影响。

证据水平:

预后 III级。有关证据水平的完整描述,请参阅作者指南。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号