基于临床与实验室指标构建机器学习模型预测膀胱癌术后复发:一项XGBoost驱动的多维度研究

《Scientific Reports》:Machine learning prediction of postoperative recurrence in bladder cancer using clinical and laboratory indicators

【字体: 时间:2026年04月16日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对膀胱癌术后复发风险预测难题,基于488例患者临床及实验室数据,构建了XGBoost、RF、SVM、KNN四种机器学习模型。结果显示XGBoost模型预测效能最优(AUC达0.925),并筛选出肿瘤分期、NLR等关键风险因子,为个体化术后监测提供了新策略。

  
膀胱癌(Bladder Cancer)作为泌尿系统最常见的恶性肿瘤之一,其术后高复发率一直是临床诊疗的“阿喀琉斯之踵”。尽管经尿道膀胱肿瘤切除术(TURBT)等手术能有效切除肉眼可见的病灶,但术后5年内仍有高达50%–70%的患者面临复发风险。这种高复发率不仅导致患者需反复接受侵入性检查与治疗,严重影响生活质量,也极大地加重了医疗系统的负担。因此,如何在术后早期精准识别出高复发风险患者,从而实施差异化的密切随访和早期干预,是优化膀胱癌全程管理的关键瓶颈。
然而,传统的预后评估多依赖单一的临床病理指标(如肿瘤分期、分级),预测能力有限且缺乏个体化维度。随着精准医疗的发展,整合多维度数据(包括临床特征、实验室参数及生活方式)构建智能预测模型,已成为破解这一难题的新方向。在此背景下,发表在《Scientific Reports》上的这项研究,旨在利用机器学习(Machine Learning)算法,开发一种高精度的术后复发风险预测工具,并揭示驱动复发的关键风险因素。

主要技术方法概览

本研究回顾性纳入了488例膀胱癌患者,收集了包括 demographics(人口统计学)、lifestyle(生活方式)、comorbidity(合并症)、tumor-related(肿瘤特征)、surgical(手术相关)以及 postoperative follow-up data(术后随访数据)在内的多维指标,并特别关注了3个月时的 laboratory parameters(实验室参数)如NLR(neutrophil-to-lymphocyte ratio,中性粒细胞与淋巴细胞比值)、ALP(alkaline phosphatase,碱性磷酸酶)等。研究采用 univariate and multivariate analyses(单因素与多因素分析)筛选独立预测因子,并构建了XGBoost(eXtreme Gradient Boosting)、RF(Random Forest)、SVM(Support Vector Machine)和KNN(k-Nearest Neighbors)四种机器学习模型。模型性能通过ROC曲线(receiver operating characteristic curves)、calibration curves(校准曲线)、DCA(decision curve analysis,决策曲线分析)及k-fold cross-validation(k折交叉验证)进行评估,最后利用SHAP(SHapley Additive exPlanations)分析解读特征重要性及个体风险贡献。

研究结果解析

关键风险因子筛选

通过单因素及多因素分析,研究确定了11个与膀胱癌术后复发显著相关的独立预测因子。这些因子覆盖了从患者基础特征到肿瘤生物学行为的多个维度:
  • 人口学与行为因素:年龄、吸烟史(smoking history)。
  • 肿瘤病理特征:肿瘤分期(tumor stage)、肿瘤数目(tumor number)、肿瘤大小(tumor size)、病理分级(pathological grade)。
  • 实验室与检测指标:NLR(炎症指标)、尿液细胞学(urine cytology)、血尿(hematuria)、NMP22(核基质蛋白22)、ALP。
这一结果证实,复发风险并非由单一因素决定,而是患者基础状况、肿瘤恶性程度及机体微环境(如炎症状态)共同作用的结果。

模型性能大比拼:XGBoost脱颖而出

在构建的四种机器学习模型中,XGBoost算法展现出了卓越的预测能力,其综合性能显著优于RF、SVM和KNN模型:
  • 训练集:AUC(Area Under the Curve,曲线下面积)高达0.960,显示出极强的学习能力。
  • 验证集:AUC为0.925,表明模型具有良好的泛化能力,未见明显过拟合。
  • 外部验证队列:AUC达到0.850,进一步证明了该模型在不同人群中的稳健性与临床适用性。
此外,XGBoost模型的校准曲线显示其预测概率与实际复发概率高度一致,DCA分析也证实其在较大阈值概率范围内具有显著的临床净收益。

SHAP分析:打开“黑箱”,解读风险贡献

为了增强模型的可解释性,研究采用SHAP分析深度解析了各特征对复发风险的贡献度与作用方向。结果显示:
  • 核心贡献因子:吸烟史、肿瘤分期、肿瘤数目、肿瘤大小、病理分级、NLR、尿液细胞学、血尿、NMP22是影响模型预测结果的最重要特征。
  • 风险驱动模式:SHAP分析清晰地展示了这些因子如何导致个体患者的风险差异。例如,较高的NLR值、阳性尿细胞学结果、多发或体积较大的肿瘤、高级别病理分期等,均会显著推高模型的复发风险评分(即SHAP值较高)。
这不仅验证了临床经验,更从数据驱动角度量化了各风险因素的权重,为医生解读个体化风险提供了直观依据。

结论与意义展望

本研究成功构建并验证了一个基于多维数据与XGBoost算法的膀胱癌术后复发风险预测模型。该模型能够在术后早期(如3个月时间点)实现高精度的风险分层,其价值主要体现在三个方面:
  1. 1.
    临床决策支持:为医生提供了一种量化工具,有助于识别需加强随访(如更频繁的膀胱镜检查)的高危患者,同时避免对低危患者的过度医疗。
  2. 2.
    机制探索启示:通过SHAP分析揭示的NLR、NMP22等关键因子,为研究复发相关的生物学机制(如炎症微环境、肿瘤代谢)提供了新的线索。
  3. 3.
    向精准医疗迈进:该模型整合了易于获取的临床与实验室指标,具备较好的临床转化可行性,有望成为膀胱癌个体化术后管理路径的核心组件。
当然,该模型的普适性仍需在前瞻性、多中心的大样本队列中进一步验证。未来若能结合基因组学、影像组学等多组学数据,模型的预测精度与生物学洞察力将得到进一步提升。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号