《Frontiers in Oncology》:A screening model for advanced colorectal neoplasia based on tumor markers and inflammatory indices: a retrospective study with an online risk calculator
编辑推荐:
本研究旨在设计并验证一种利用常规血液肿瘤标志物与炎症指标的无创筛查模型,用于预测高级别结直肠肿瘤(ACN),并开发个体化风险评估的在线计算器。在该回顾性分析中,纳入了1,290例接受结肠镜检查且具备完整术前血液检测结果的受试者。依据病理结果,受试者被分为高级别
本研究旨在设计并验证一种利用常规血液肿瘤标志物与炎症指标的无创筛查模型,用于预测高级别结直肠肿瘤(ACN),并开发个体化风险评估的在线计算器。在该回顾性分析中,纳入了1,290例接受结肠镜检查且具备完整术前血液检测结果的受试者。依据病理结果,受试者被分为高级别结直肠肿瘤组与非高级别肿瘤组,并按7:3比例随机分配至训练集与测试集。研究采用单因素logistic回归初筛候选变量,随后将具有统计学意义的变量纳入多因素logistic回归模型以确定独立预测因子。为评估连续变量与ACN风险之间的潜在非线性关系,研究采用限制性立方样条(RCS)进行分析。基于五种机器学习算法构建预测模型,并以受试者工作特征曲线下面积(AUC)评估模型效能。通过敏感性分析及分层分析进一步验证核心预测因子的稳健性。采用SHAP值解释最终模型,并将其部署为在线计算器。结果显示,在1,290例受试者中,210例确诊为高级别结直肠肿瘤。癌胚抗原(CEA)、系统性免疫炎症指数(SII)、中性粒细胞-淋巴细胞比值(NLR)、白蛋白(ALB)及血小板-淋巴细胞比值(PLR)被确定为独立预测因子,且其在敏感性及分层分析中保持稳定。在五种模型中,XGBoost模型表现最优,AUC达0.956(95%置信区间0.936–0.976)。SHAP分析证实SII为最具影响力的预测因子。研究结论表明,基于CEA、SII及NLR等关键血液标志物的机器学习模型可有效支持高级别结直肠肿瘤的无创筛查,该在线计算器为临床实践中个体化风险评估提供了便捷实用的工具。
结直肠癌(CRC)仍是全球范围内导致癌症相关发病与死亡的主要恶性肿瘤之一,其发生发展遵循经典的"腺瘤-癌序列"。在此进程中,高级别结直肠肿瘤(ACN)涵盖进展期腺瘤与早期癌变,代表了一个关键且潜在可逆的阶段,早期识别与干预对于阻断其向浸润性癌进展具有重要意义。然而,现有筛查手段存在明显局限:结肠镜检查虽为诊断金标准,但其侵入性、高昂费用及较低的患者依从性限制了其在人群筛查中的广泛应用;粪便隐血试验及粪便DNA检测等非侵入性方法对癌前病变的检出敏感性及特异性仍不理想。近年来,肿瘤_marker_与炎症相关血液参数在CRC研究中的应用日益受到关注,但多数研究集中于单一或有限数量的生物标志物,且主要针对已确诊的CRC而非ACN阶段。此外,传统回归模型难以充分捕捉血液学变量间复杂的非线性关系与交互作用,而机器学习算法在处理高维数据、复杂交互及非线性关系方面具有显著优势。基于上述背景,研究人员开展本项研究,旨在整合肿瘤标志物与炎症相关血液学指标,开发并验证ACN的预测模型,并通过SHAP分析提升模型可解释性,最终构建在线风险计算器以实现个体化风险评估。
该论文发表于《Frontiers in Oncology》。研究人员为开展此项研究,主要采用了以下关键技术方法:样本来源于安徽医科大学第四附属医院消化内镜中心2020年1月至2025年1月期间接受结肠镜检查的1,290例连续性住院或门诊患者,所有受试者均在术前1周内完成全套静脉血检测;统计学分析采用SPSS 26.0及R语言完成,缺失数据运用基于链式方程的多重插补法 HTTPS方法处理;变量筛选采用单因素及多因素logistic回归,并运用限制性立方样条(RCS)分析连续变量与结局的非线性关联;模型构建采用梯度提升机(GBM)、随机森林(RF)、极端梯度提升(XGBoost)、分类回归树(CART)及logistic回归(LR)五种机器学习算法,通过重复10折交叉验证结合网格搜索策略进行超参数优化;模型评估涵盖区分度(AUC、准确率、灵敏度、特异度、Kappa统计量、Matthews相关系数)、校准度(Brier值、校准曲线)及临床效用(决策曲线分析,DCA);最终采用SHAP分析实现模型解释,并将最优模型部署为基于Shiny框架的在线风险计算器。
**特征筛选与独立预测因子确定**:通过单因素logistic回归,研究筛选出与ACN相关的临床及实验室因素(P<0.05),包括CEA、糖链抗原199(CA199)、预后营养指数(PNI)、SII、NLR、PLR、年龄、糖链抗原125(CA125)、肌酐、天冬氨酸氨基转移酶(AST)、总蛋白(TP)、ALB、白球比(A/G)、红细胞计数(RBC)、纤维蛋白原-前白蛋白比值(FPR)、血红蛋白-红细胞分布宽度比值(H<|reserved_token_163810|>我将继续完成论文解读文章的剩余部分。
---
(intensity HRR)及MLR等。多因素logistic回归分析证实,SII [P<0.001, 比值比(OR)95%置信区间(CI)=1.53(1.34–1.73)]、CEA [P<0.001, OR(95%CI)=1.30(1.20–1.41)]、NLR [P<0.001, OR(95%CI)=2.00(1.66–2.42)]、PLR [P<0.001, OR(95%CI)=1.50(1.20–1.86)]及ALB [P=0.015, OR(95%CI)=0.95(0.92–0.99)]与高级别结直肠肿瘤独立相关。相关性分析显示各预测因子间相关系数均小于0.4,不存在显著多重共线性。RCS曲线提示CEA、SII、NLR、PLR及ALB与结局均存在非线性关联(非线性P<0.05)。
**核心预测因子的稳健性验证**:研究以SII为代表性炎症生物标志物进行稳健性评估。逐步敏感性分析显示,在依次校正年龄、肝功能、肾功能、营养状态及血液学参数后,SII与ACN的关联保持稳定,完全校正模型中OR值仅从1.56降至1.46。CEA亦呈现相似模式。分层分析显示,SII在各亚组中均与风险升高相关(所有OR>1),与ALB、丙氨酸氨基转移酶(ALT)、AST及肌酐存在显著交互作用,但与年龄无显著交互;在ALT、AST及肌酐水平较低的亚组中,SII的关联效应更强,提示基线炎症与宿主生理状态在结直肠肿瘤进展中存在交互影响。
**机器学习模型的构建与评估**:数据集按7:3比例随机分为训练集(n=903)与测试集(n=387)。经十折交叉验证重采样评估,各模型在训练集中的AUC(95%CI)分别为:RF 0.889(0.856–0.923)、CART 0.870(0.834–0.906)、LR 0.745(0.688–0.801)、GBM 0.885(0.852–0.919)、XGBoost 0.956(0.936–0.976);测试集中对应AUC分别为0.918(0.875–0.960)、0.831(0.771–0.892)、0.714(0.626–0.802)、0.900(0.852–0.947)及0.955(0.923–0.987)。综合准确率、灵敏度、特异度、精确率、F1值、Kappa值、Matthews相关系数及Brier值等多维指标,XGBoost模型表现最优。DCA显示所有模型在广泛阈值概率范围内均较"全部不治疗"及"全部治疗"策略具有临床净获益。训练集与测试集间AUC差异极小,Brier值相近,表明模型稳定性及校准度良好。
**SHAP模型可解释性分析**:全局层面,SHAP汇总图揭示各变量对风险的方向性效应,SII为最具影响力的预测因子,较高值对应正向SHAP值(风险增加),较低值对应负向SHAP值(风险降低);CEA、NLR及PLR呈稳定正向效应,随水平升高贡献更显著;ALB呈稳定负向关联,提示良好营养状态及低炎症负荷具有保护作用。个体层面,SHAP瀑布图及力图展示了从基线期望到最终个体输出的预测演变过程:典型ACN病例中,CEA升高(12 ng/mL)为主要驱动因素,SII及NLR升高、PLR升高及ALB降低 further contributing to risk elevation;非ACN病例中,高ALB水平(47.8 g/L)产生强负向贡献,SII及CEA相对低值对风险增加影响甚微;临界风险病例则体现模型平衡竞争因素的能力,NLR为风险升高的主要贡献者,而PLR、SII及ALB发挥反向效应,最终预测接近基线。
**亚组分析与交互效应**:SII作为独立且稳健的预测因子,其效应在不同宿主生理状态下呈现情境依赖性。与ALB的交互作用支持营养状态与系统性炎症在结直肠肿瘤发生中的协同作用;在器官功能保留的患者中SII效应更强,提示基线器官功能障碍相关的炎症可能削弱其增量预测价值。这些发现表明所选预测因子具有稳健性,受混杂因素影响有限,且效应修饰具有生物学合理性。
讨论部分,研究人员首先阐述了识别预测因子的生物学合理性。SII、NLR及PLR等系统性炎症标志物反映炎症反应与免疫功能间的平衡,其紊乱与结直肠肿瘤发生及进展密切相关:中性粒细胞释放白细胞介素-6(IL-6)及肿瘤坏死因子-α(TNF-α)等细胞因子促进炎症反应,导致慢性炎症及异型改变;血小板分泌促血管生成因子,促进肿瘤细胞黏附、聚集及微转移;淋巴细胞介导免疫监视,其减少反映抗肿瘤免疫受损。SII整合中性粒细胞、淋巴细胞及血小板三者信息,提供更完整的系统性炎症与免疫抑制评估。血清白蛋白反映肝脏蛋白合成与全身分解代谢的平衡,慢性炎症通过IL-6/信号转导及转录激活因子3(STAT3)通路抑制白蛋白合成并促进蛋白降解,ACN患者中观察到的低白蛋白血症可能反映炎症相关代谢应激。CEA作为肿瘤相关蛋白,参与细胞黏附及肿瘤进展,高水平往往与较大肿瘤负荷、低分化及高侵袭性相关,可能提示腺瘤向高级别异生殖或早期癌的转化。
研究人员指出,XGBoost算法的优越性能源于其捕获复杂非线性关系及变量交互作用的能力,RCS分析证实的非线性关联传统线性方法难以建模。尽管XGBoost与LR在精确率及F1值方面差异较大,但这部分反映了类别不平衡(ACN患病率16.3%)对树型模型的影响;同时实施的多重策略包括内置L1/L2正则化、重复交叉验证、早期停止及有限预测因子数量,均有助于降低过拟合风险。研究通过SHAP分析有效应对机器学习的"黑箱"局限,实现全局与个体层面的双重可解释性,为临床识别高危指标及个体化预测提供直观证据。
研究还通过与既往研究及常用筛查策略的比较进一步 contextualize 临床效用:Song等人的XGBoost模型对进展期腺瘤的灵敏度为70.8%、特异度83.4%,而本模型在独立测试集中表现更优;粪便免疫化学检测(FIT)对癌前病变的灵敏度约20%–50%,多靶点粪便DNA检测对进展期腺瘤的检出率一般维持在40%–60%,本模型基于常规血液生物标志物提供了一种非侵入性、便捷的结肠镜前风险分层手段。在线计算器基于Shiny框架开发,适用于无症状人群常规体检初筛、资源受限情境下的高危个体优先转诊,以及临界或不确定实验室结果患者的量化风险评估。未来可通过应用程序接口(API)实现与电子病历系统的直接整合,并需多中心外部验证以提升泛化能力。
研究结论:本研究构建并验证了一种基于肿瘤标志物与炎症指标的高级别结直肠肿瘤筛查模型,该模型展现出强预测能力,可作为临床医生早期识别高危个体的有用工具。研究人员同时建立了互联网风险计算工具,以增强个体化风险评估与临床决策支持。