基于递归特征添加(RFA)策略优化HIV感染者心血管炎症表型生物标志物聚类的研究

《PLOS Computational Biology》:Refining biomarker-based clustering of cardiovascular inflammatory phenotypes in HIV using Recursive Feature Addition: A comparative evaluation approach

【字体: 时间:2026年04月28日 来源:PLOS Computational Biology 3.6

编辑推荐:

  针对HIV感染者心血管风险分层难题,研究者采用递归特征添加(RFA)框架,对比三种生物标志物筛选模型,成功优化聚类方案,其中独立单标志物评估模型能更精准识别高炎症、高心血管表型(CVP)风险亚群,为精准医疗提供新路径。

  
随着抗逆转录病毒治疗(Antiretroviral Therapy, ART)的广泛应用,HIV感染者的寿命已大幅延长,这使得非传染性疾病(Non-Communicable Diseases, NCDs)——尤其是心血管疾病(Cardiovascular Disease, CVD)——逐渐取代机会性感染,成为这一人群发病和死亡的主要原因。然而,即便病毒已被完全抑制,HIV感染者发生心肌梗死和心血管死亡的风险仍显著高于同龄的非感染人群。传统的心血管危险因素(如高血压、血脂异常、吸烟等)虽在其中扮演了重要角色,但并不能完全解释这种过剩的风险。越来越多的证据指向了慢性炎症和免疫激活这一HIV感染的“ hallmark(特征)”:即便在ART治疗后,感染者体内仍存在持续的系统性炎症、肠道菌群紊乱导致的屏障破坏、以及先天与适应性免疫系统的异常激活。这些炎症通路如何通过复杂的相互作用催生心血管疾病,一直是困扰临床医生和科研人员的难题。
过去,科学家们试图通过单一的生物标志物(如高敏C反应蛋白 hsCRP、白细胞介素-6 IL-6 等)来预测心血管风险,但复杂的炎症网络使得单个标志物难以全面反映病理状态,预测准确性有限。随后,研究转向多标志物分析,利用无监督聚类(Clustering)方法将人群按炎症特征分为不同表型,并发现某些“高炎症集群”与亚临床冠状动脉疾病及临床心血管事件密切相关。然而,随着高通量多因子检测平台的普及,如何从这数十种甚至上百种炎症标志物中,筛选出最能代表疾病特征、且不包含冗余信息的“黄金组合”,同时保证聚类的稳定性和临床可解释性,成了一个棘手的计算生物学与临床转化难题。简单地扩大标志物面板,往往会引入噪声,反而降低聚类效果。
为了攻克这一难关,研究人员开展了一项极具创新性的研究,旨在开发一个名为递归特征添加(Recursive Feature Addition, RFA)的框架,用以优化基于生物标志物的聚类方法,从而更好地捕捉HIV感染者中与心血管表型(Cardiovascular Phenotype, CVP)相关的炎症模式。该研究结合了来自爱尔兰、英国和荷兰的三个大型国际前瞻性队列(AIID、UPBEAT-CAD 和 COBRA)的数据,共纳入408名参与者(其中77.9%为HIV感染者,且均实现病毒抑制)。研究人员以一个包含24种已知与CVP相关的基线标志物面板为基础,比较了三种不同的RFA模型来选择性地纳入其余31种探索性生物标志物:模型1基于生物学相关性进行累积式逐步添加;模型2每次独立评估单个标志物的增量价值;模型3采用贪婪的前向-后向选择算法。随后,研究通过主成分分析(Principal Component Analysis, PCA)结合层次聚类(HCPC)、聚类稳定性评估(Adjusted Rand Index, ARI)、生物学连贯性分析,以及与CVP和10年动脉粥样硬化心血管疾病(ASCVD)风险评分的关联分析,对这三个模型进行了全方位的比较。该论文发表在《PLOS Computational Biology》上。
主要关键技术方法:
研究整合了来自AIID(爱尔兰)、UPBEAT-CAD(英国)和COBRA(荷兰)三个国际队列的408名参与者(含HIV感染者和非感染者)样本。关键技术包括:1)使用定量免疫测定法测量55种血浆生物标志物,并进行ComBat批次校正及log转换标准化;2)采用递归特征添加(RFA)框架,结合随机森林(Random Forest, RF)分类器(500棵树,3折交叉验证)来评估标志物的边际贡献,设定分类准确率>0.80和Cohen’s Kappa>0.65为保留阈值;3)利用PCA降维与层次聚类(Ward最小方差法)进行无监督聚类;4)通过500次Bootstrap重采样计算调整Rand指数(ARI)评估聚类稳定性;5)使用单变量及多变量逻辑回归(调整年龄、性别、BMI、吸烟、血脂异常)分析集群与CVP的关联,并进行1000次分层Bootstrap回归评估鲁棒性。
研究结果
Participant characteristics(参与者特征)
研究共分析了408名参与者的数据,中位年龄为50岁,83%为男性,33.3%满足心血管表型(CVP)定义(包括高血压、心肌梗死、卒中等),中位10年ASCVD风险评分为6%。其中HIV感染者占78%,且全部处于病毒抑制状态。各队列间基线特征略有不同,但分布均衡。
Initial model evaluation(初始模型评估)
使用基线24种生物标志物进行聚类,自然划分为3个集群:集群1(44.3%,“低炎症”)炎症水平普遍较低;集群2(45%,“系统性炎症/内皮激活”)表现为IL-6、TNF-α、vWF等升高,但Th1细胞因子较低;集群3(10.7%,“高炎症/Th1主导”)表现为IFN-γ、IL-1β、IL-2、MIP-1α等显著升高。初始模型中,集群2在未调整分析中与CVP相关(OR 1.59),但调整传统危险因素后关联消失(OR 1.23, p=0.55),集群3的调整后关联也不显著,且聚类稳定性一般(Median ARI 未明确提及,但低于后续模型),表明仅靠这24种标志物不足以稳健地分辨高风险炎症表型。
Model 1: Stepwise Addition with Cumulative Evaluation(模型1:基于生物学相关性的累积逐步添加)
该模型依据预设的生物通路相关性顺序,逐步累积添加标志物,最终保留了6种额外标志物(CXCL9, IL-17, EGF, IL-8, Thrombopoietin, GDF-15)。重新聚类后,集群3(16.4%)表现为TNF-α、IL-1β、IL-8、CRP、MIP-1α普遍升高。此模型下CVP患病率在集群3最高(45%),未调整OR为2.36;然而调整后OR降至1.68且失去显著性。Bootstrap评估显示聚类稳定性为中等水平(Median ARI 0.55),标志物选择频率在不同重采样中低至中等,表明该策略虽然增加了生物通路的多样性,但对提升临床关联的稳健性有限。
Model 2: Independent Addition Without Order Assumptions(模型2:无顺序假设的单标志物独立评估)
该模型将31种候选标志物逐一与基线24种组合进行测试,不保留累积添加的标志物,最终筛选出11种具有增量价值的标志物(包括GDF-15, IFN-λ2, Thrombopoietin, GM-CSF, IL-17, IL-8, CXCL9, IL-5, EGF, TGF-α, IFN-α2a)。基于这35种标志物的聚类结果显示,集群3(8.8%)不仅具有高水平的IL-1β、IL-2、MIP-1α,还表现出显著的先天与适应性免疫激活(如GM-CSF, IFN-α2a, IFN-γ, IL-12, TSLP, Thrombopoietin)。该集群的CVP患病率最高(42%),且在调整年龄、性别、BMI、吸烟和血脂异常后,仍与CVP显著相关(aOR 2.30, 95% CI 1.05–5.06)。聚类稳定性良好(Median ARI 0.74),1000次Bootstrap回归显示其中位数OR为2.25,且97.5%的迭代中OR大于1,证明了极高的可重复性。这是三个模型中临床关联最强且最稳健的。
Model 3: Bidirectional feature selection(模型3:双向特征选择)
该模型采用贪婪的前向-后向选择算法,仅保留了5种标志物(IL-17, TGF-α, GDF-15, MDC, IFN-α2a)。虽然由此产生的聚类结构稳定性最高(Median ARI 0.79),但其标志物选择过程在50次重采样中极不稳定(没有一种候选标志物在超过10%的迭代中被选中),且集群与CVP的关联在调整前后均未达到显著水平(调整后Cluster 3 OR 1.53, p=0.25)。这表明,单纯追求分类准确率的自动算法容易陷入过拟合,且对数据拆分敏感,导致下游临床推断的鲁棒性较差。
Comparison of biomarker composition across models(跨模型生物标志物组成比较)
综合分析显示,IL-17和GDF-15在所有三个模型中均被选中,证实了它们在炎症及血管进程中的核心地位。模型2涵盖的标志物最为广泛,覆盖了免疫激活、生长因子、干扰素及调节性细胞因子通路,与CVP的病理机制吻合度最高。
Comparison of models and model stability(模型及稳定性比较)
综合生物标志物选择可重复性、聚类稳定性(ARI)及临床关联Bootstrap鲁棒性,模型2表现最优:它实现了生物标志物选择的相对平衡、较高的聚类稳定性(ARI 0.74)以及最显著且稳定的CVP关联。模型1居中,模型3虽聚类结构稳定但标志物选择和临床关联不稳定。
结论与讨论
这项研究成功地展示并验证了“递归特征添加(RFA)”框架在优化HIV感染者心血管炎症表型生物标志物聚类中的强大效用。核心结论指出,并非所有的特征选择策略都能殊途同归:相较于基于先验知识的累积添加(模型1)和纯粹数据驱动的贪婪选择(模型3),采用无顺序假设、独立评估每个额外标志物增量价值的RFA策略(模型2),最能增强聚类剖面的区分度,并揭示出一个具有高度先天/适应性免疫激活、且与传统危险因素无关的高心血管风险炎症亚群(Cluster 3, aOR 2.30)。
这一发现具有重要意义。首先,它为从高通量多重免疫学数据中“去粗取精”提供了一套严谨、可控且无偏的计算框架,解决了盲目扩大标志物面板反而降低模型性能的痛点。其次,它强化了慢性炎症网络(而非单一标志物)在HIV相关心血管疾病中的核心驱动作用,特别是模型2中选出的GDF-15、IFN-λ2、Thrombopoietin等标志物,为未来简化临床检测面板提供了关键靶标。最后,该框架具有高度的适应性,不仅能应用于HIV合并心血管疾病的研究,也可拓展至其他由炎症驱动的非传染性疾病及多组学标志物筛选中,真正推动了从“一刀切”到“精准分层”的转化医学步伐。尽管研究受限于横断面设计和生物标志物检测的资源密集性,但其在多国队列中的验证及详尽的Bootstrap稳定性分析,为后续前瞻性纵向研究奠定了坚实的方法学基石。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号