提高骨肉瘤生存预测准确性：集成SEER和NCDB数据集的多组分模型机器学习方法与传统单数据集建模方法的比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《JBI Evidence Synthesis》：Enhancing Osteosarcoma Survival Predictions: A Comparative Study of a Multicomponent-Model Machine Learning Approach Integrating SEER and NCDB Data Sets Versus Conventional Single-Data-Set Modeling

【字体：大中小】 时间：2026年05月28日 来源：JBI Evidence Synthesis 4.5

编辑推荐：

　　摘要通俗语言摘要背景：骨肉瘤的治疗决策需要准确的预后评估，然而使用机器学习（ML）模型存在问题，因为当模型应用于不同数据集时，其性能会持续下降。目前基于单一数据集的模型只能

背景：

骨肉瘤的治疗决策需要准确的预后评估，然而使用机器学习（ML）模型存在问题，因为当模型应用于不同数据集时，其性能会持续下降。目前基于单一数据集的模型只能学习特定人群的模式，而无法掌握具有普遍性的疾病特征，这限制了它们的临床应用。我们开发了一个多组件模型（多模型）ML框架，通过在两个国家级注册系统中进行领域对抗性训练，将结构化的临床变量与基于文本的患者数据相结合，以学习具有普遍性的疾病模式，并实现对不同人群的可靠生存预测。

方法：

我们使用来自两个国家级癌症注册系统的数据进行了回顾性研究：SEER（监测、流行病学和最终结果；n = 4,278名患者，2004年至2015年）和NCDB（国家癌症数据库；n = 4,049名患者，2004年至2018年）。我们比较了单一模型与多模型在跨数据集上的性能。主要评估指标包括2年和5年总生存预测的绩效指标，通过接收者操作特征曲线下面积（AUC）、精确度、召回率、F1分数和Brier分数来衡量。

结果：

单一模型在内部验证中表现良好（AUC为0.898至0.927），但在跨数据集验证中的性能显著下降（AUC为0.563至0.665）。多模型方法在2年生存率的跨数据集AUC为0.708至0.843，在5年生存率的跨数据集AUC为0.648至0.798，所有评估指标上均比单一模型提高了0.085至0.199。

结论：

多模型ML方法在多个医疗数据集中展示了改进的骨肉瘤预后能力，解决了基于单一数据集的模型的泛化挑战。跨数据集性能的提升表明，该方法有潜力用于指导手术计划、辅助治疗选择和患者咨询。需要前瞻性验证来评估其临床影响。

证据水平：

预后 III级。有关证据水平的完整描述，请参阅作者指南。

联系信箱：

粤ICP备09063491号

背景：

方法：

结果：

结论：

证据水平：

热点排行