开发并验证一种集成机器学习模型以预测局部晚期直肠癌患者的生存情况:一项多中心回顾性研究

《European Journal of Surgical Oncology》:Development and Validation of an Ensemble Machine Learning Model to Predict Survival in Locally Advanced Rectal Cancer: A Multicenter, Retrospective Study

【字体: 时间:2026年04月21日 来源:European Journal of Surgical Oncology 3.5

编辑推荐:

  本研究通过多中心回顾性队列分析,纳入1119例局部晚期直肠癌(LARC)患者,利用机器学习模型筛选最优预测因子,构建并验证了基于随机生存森林与梯度提升的预后模型(GRM)。GRM在训练组及两个外部验证组中C-index分别为0.917、0.897和0.837,显示优异的预测准确性,并开发了公共可用的在线计算工具,为临床决策和个体化治疗提供支持。

  
潘臻|郑绍青|庄志成|王晔|卢星荣|彭腾毅|张琪琪|叶文|关国贤|李守峰|陈斌
福建医科大学附属第一医院结直肠外科,中国福州

摘要

背景

被诊断为局部晚期直肠癌(LARC)的患者在接受新辅助化疗放疗(nCRT)后,预后情况各不相同,这突显出精确预测预后的必要性。

目的

本研究的目的是创建并评估一个可解释的机器学习模型,以预测LARC患者的预后结果。

方法

我们进行了一项多中心回顾性队列研究,纳入了2012年至2022年间接受新辅助化疗放疗后进行根治性手术的1119例LARC患者。我们使用了十种特征选择机器学习算法来识别最佳预测因子。随后,我们结合这十种特征和十种机器学习算法开发了模型。通过时间依赖性校准曲线、一致性指数(C-index)、决策曲线分析和时间依赖性接收者操作特征曲线等多种技术评估了模型的有效性。

结果

在选择预测因子后,共创建了十个特征子集。这些子集分别与十种机器学习算法结合,形成了100个预测模型。在所有分析的模型中,随机生存森林(Random Survival Forest)与梯度提升(gradient boosting)的结合显示出最高的预测准确性。在训练组中,GRM的C-index为0.917(95% CI 0.890–0.944);在验证队列1中为0.897(95% CI 0.850–0.924);在验证队列2中为0.837(95% CI 0.780–0.894)。此外,还开发了一个面向公众的基于网络的工具来使用GRM模型。

结论

GRM模型能够有效预测接受新辅助化疗放疗的LARC患者的预后。这有助于医疗提供者评估病情严重程度,改善患者监测,并协助制定补充治疗策略。

引言

结直肠癌是全球最常见的恶性肿瘤类型之一[1],其中局部晚期直肠癌(LARC)占很大比例[2]。LARC的标准治疗方法已发展为首先进行新辅助化疗放疗(nCRT),随后进行全直肠系膜切除术[3]、[4]、[5]。然而,患者对nCRT的反应存在很大差异,导致长期预后也有显著不同[6]、[7]。因此,在治疗前准确预测患者的预后对于优化治疗策略以及指导治疗后的个性化辅助护理和随访程序至关重要[8]、[9]、[10]。
目前,临床实践中用于精确预后分析的工具尚不完善[11]、[12]。传统的预测方法主要依赖于临床TNM分期、影像学评估和有限的临床病理特征;然而,这些方法的准确性仍然有限[13]、[14]。尽管美国癌症联合委员会(AJCC)的分期系统常用于预后评估,但在预测nCRT治疗反应和后续结果方面效果不佳[15]。此外,尽管之前的研究尝试使用逻辑回归和其他技术开发预测模型,但这些模型往往难以有效处理临床数据中存在的复杂非线性关系。因此,迫切需要创建更可靠的预测模型,以提高对接受nCRT的LARC患者预后的预测精度。
高性能计算技术和大数据的最新进展使得机器学习(ML)在临床实践和医学研究中变得不可或缺[16]、[17]。与传统统计方法不同,机器学习技术能够独立识别大型数据集中的模式,并揭示人类分析师可能不易察觉的复杂关联,从而为疾病预测和不同治疗选项的有效性提供新的视角[18]、[19]。在肿瘤学领域,机器学习模型在诊断、预测预后和评估多种类型癌症的治疗反应方面表现出显著效果[20]、[21]、[22]、[23]。
因此,我们的研究旨在开发并外部验证一个使用不同机器学习技术的模型,以评估接受nCRT后的LARC患者的预后。通过整合多种复杂算法并在不同中心进行广泛的外部验证,我们的目标是提供一个更准确和个性化的风险评估工具。此外,我们计划开发一个在线风险计算器,将研究成果转化为易于使用的临床资源,从而提高模型的可用性和覆盖范围,进而支持明智的临床决策。

研究人群

本研究是一项多中心回顾性队列分析,研究对象为2012年至2022年间在中国三家主要医疗机构接受新辅助化疗放疗后进行根治性手术的LARC患者。在手术和随访评估之前,所有患者均签署了知情同意书。手术由经验丰富的高技能资深外科医生执行。共有1,119名符合条件的LARC患者纳入了本研究。

患者基线特征

本研究从三个不同的中心筛选出LARC患者。在应用纳入和排除标准后,最终分析共包括1,119名接受新辅助化疗放疗后进行根治性手术的LARC患者(图1)。
表1总结了训练队列(n=861)、验证队列1(n=133)和验证队列2(n=125)的基线临床病理特征。对这些基线特征的分析表明,三组患者

讨论

在这项研究中,我们创建并验证了一个名为GRM的预测模型,利用多种机器学习技术来预测接受新辅助化疗放疗后的LARC患者的长期预后。该模型在训练队列以及两个独立的外部验证组中均表现出显著的预测能力。就区分能力而言,结合了GBM和RSF的GRM模型显示出出色的准确性,这体现在较高的C-index值上

结论

本研究通过多中心的大量验证,成功创建并彻底验证了一个基于机器学习的预测模型GRM,专注于准确预测接受新辅助化疗放疗后的LARC患者的长期预后。通过执行可解释性分析、开发在线计算器以及建立简单的预后分期系统,我们将复杂的算法转化为实用的临床工具。

伦理批准

本研究已获得福建医科大学附属第一医院、福建医科大学龙岩附属医院和福建医科大学联合医院的伦理委员会批准。我们郑重声明,整个研究过程严格遵循了相关指南和规定。所有参与者及其法定监护人均已签署知情同意书。

作者声明

潘臻博士;郑绍青博士;庄志成博士;王晔博士;李守峰博士;彭腾毅博士;张琪琪博士;陈斌博士;叶文博士;卢星荣博士;关国贤博士声明他们没有需要披露的利益冲突或财务关联。

数据和材料的获取

研究中使用的一些数据(如果不是全部数据)可以从相应作者的数据资源中获取。

利益冲突声明

我声明作者没有Springer定义的利益冲突,或其他可能影响本文结果和/或讨论的利益。

出版同意

所有患者均已签署知情同意书,明确同意其数据和图像可用于研究目的。

作者贡献

研究设计和概念构思由潘臻和郑绍青完成;数据收集由彭腾毅、李守峰和庄志成负责;数据分析由王晔和陈斌完成;手稿的解释、起草和修订由关国贤、卢星荣和叶文完成。所有作者均批准了手稿的最终版本。

数据和材料的获取

研究中使用的一些数据(如果不是全部数据)可以从相应作者的数据资源中获取。

作者贡献

研究概念:研究设计:数据采集:数据和算法质量控制:数据分析和解释:统计分析:手稿准备:手稿编辑:手稿审阅:陈斌、郑绍青、潘臻、郑绍青、彭腾毅、李守峰、庄志成、王晔、陈斌、叶晔、关国贤、卢星荣、叶文、关国贤、卢星荣、叶文、关国贤、卢星荣、叶文

资助

本研究得到了国家自然科学基金(编号:82172800)、福建省专项财政基金(编号:2020B019)以及福建省科技创新联合基金(编号:2020Y9125)的支持。

利益冲突声明

我声明作者没有Springer定义的利益冲突,或其他可能影响本文结果和/或讨论的利益。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号