《Biology》:An AI-Enabled Single-Cell Transcriptomic Analysis Pipeline for Gene Signature Discovery in Natural Killer Cells Linked to Remission Outcomes in Chronic Myeloid Leukemia
Santoshi Borra,
Da Yan,
Robert S. Welner and
Zongliang Yue
编辑推荐:
为了应对单细胞转录组学中缺乏能够同时利用基因调控网络(GRN)架构、AI辅助基因panel发现和功能分析的整合性分析流程这一关键技术挑战,研究人员开发了名为GAFA的整合性分析流程,并应用于慢性髓系白血病(CML)患者的NK细胞,旨在解析与酪氨酸激酶抑制剂(TKI)停药后治疗无缓解(TFR)和复发相关的NK细胞状态、分化轨迹和调控网络。研究表明,TFR与复发患者的NK细胞在状态组成、发育轨迹和调控网络布线存在系统性差异,并筛选出一个包含18个基因的预测性基因panel。这项工作为从单细胞数据中发现与临床结局相关的免疫细胞调控程序和紧凑的基因panel提供了一个模块化的整合分析框架,具有重要的转化医学意义。
在当今精准医疗的时代,慢性髓系白血病(CML)的治疗目标已从控制疾病转向追求更深层次的缓解——即患者在停用靶向药物(酪氨酸激酶抑制剂,TKI)后,能否长期维持深度分子学缓解,也就是实现“治疗无缓解”(TFR)。这不仅能减轻患者长期服药的经济和身体负担,更是衡量免疫功能是否成功接管、彻底控制残留白血病细胞的关键指标。然而,现实情况是,即使在符合停药条件的患者中,也仅有约40-60%能够成功维持TFR,其余患者会在停药后经历分子学复发。为什么有些患者的免疫系统能成功“站岗”,而另一些则会“失守”?越来越多的证据指向了免疫系统的重要哨兵——自然杀伤(NK)细胞。NK细胞就像人体内的“先天免疫特种部队”,能够不依赖预先致敏而直接识别并清除异常细胞,包括残留的白血病细胞。临床观察发现,能在停药后维持TFR的患者,其体内的NK细胞往往数量更多、更成熟、功能更强。但问题在于,我们目前对NK细胞的理解大多停留在“有多少”和“表达什么表面标记”的层面。利用高通量的单细胞RNA测序(scRNA-seq)技术,科学家们能一次性检测成千上万个细胞中所有基因的表达水平,从而以前所未有的精细度解析细胞的异质性。然而,现有的单细胞数据分析流程通常将聚类、轨迹推断、基因调控网络重构和机器学习特征选择等步骤割裂开来进行,就像用不同的望远镜观察星空的各个部分,却难以拼凑出一幅完整的星系演化图。这导致我们很难从“为什么”的机制层面,将特定的基因特征与患者的临床结局联系起来。为了填补这一关键空白,一项发表于《Biology》的研究应运而生。研究人员开发并应用了一个名为“基因调控网络-人工智能-功能分析”(GAFA)的整合性分析流程,并将其聚焦于CML患者的NK细胞,旨在系统性地回答:在TKI停药这个关键时间点,成功维持TFR与最终复发的患者,其体内的NK细胞在“身份构成”(有哪些亚群)、“成长路径”(如何分化)、“指挥系统”(受哪些关键转录因子调控)以及“装备清单”(表达哪些关键基因)上究竟有何根本不同?这项研究不仅为理解NK细胞如何影响CML停药结局提供了全新的多层次视角,更重要的是,它提供了一套强大的整合分析工具,有望推动数据驱动的生物标志物发现和机制分层。
为开展这项研究,研究人员主要运用了以下几项关键技术方法:首先,他们对来自一项已发表研究的公共scRNA-seq数据集进行了重新分析,该数据包含6名CML患者(2名早期复发、2名晚期复发、2名持久TFR)在TKI停药时及停药后6-12个月的15个样本中的NK细胞转录组。其次,他们采用了基于变分自编码器(VAE)的scVI工具进行批次效应校正和细胞聚类,以无监督的方式识别出不同的NK细胞状态。接着,利用扩散拟时序(DPT)分析重构了NK细胞的分化轨迹。然后,结合沿轨迹的广义可加模型(GAM)和随机森林机器学习模型,从动态变化的基因中筛选出与临床结局相关的预测性基因特征。最后,整合了SCORPION算法和多种先验知识库(如MSigDB, DoRothEA, STRING),推断了全局和结局特异性的基因调控网络(GRN),以识别关键的转录调控模块。
3.1. 六种转录学上不同的NK细胞状态涵盖活化、成熟、迁移和免疫调节
通过对NK细胞的重新聚类分析,研究揭示了六种功能各异的NK细胞状态。它们包括:表达CD69的早期活化状态(类CD56dim);表达ZEB2的终末成熟状态(类CD57+ CD56dim);高表达CXCR4和CCR7的淋巴归巢/迁移状态;富含GZMA和JUN的细胞毒性状态(类CD56dim);高表达HLA-DR基因的免疫调节状态;以及类似于CD56bright、具有细胞因子应答能力的类祖细胞状态。重要的是,这些亚群的比例在不同结局患者中呈现差异:TFR患者的NK细胞以早期活化状态为主,几乎缺乏免疫调节状态细胞;而晚期复发患者则表现出免疫调节状态NK细胞的显著扩增。
3.2. 拟时序分析揭示了沿NK细胞分化轨迹的结局特异性状态
通过拟时序分析,研究人员重构了NK细胞从CD56bright样祖细胞状态出发的两条主要分化路径:一条是成熟轨迹(L501),最终走向终末成熟状态;另一条是细胞毒性轨迹(L503),最终走向细胞毒性效应状态。分析发现,TFR样本中的NK细胞在这两条轨迹上分布较为平衡;而早期复发样本则表现出成熟轨迹的显著耗竭,并倾向于在细胞毒性轨迹的终末状态累积。这表明,成功的TFR不仅需要细胞毒性功能,还需要NK细胞沿着成熟路径正常发育。
3.3. ML衍生的细胞水平预测性18基因特征谱
为了找出能区分TFR和复发的关键基因,研究人员结合拟时序动态基因分析和随机森林模型,筛选出了一个包含18个基因的预测性特征谱。其中包括CST7、GNLY、GZMA等已知的NK细胞功能相关基因,也包括ACTB、IFITM2/3、S100A8等在此背景下新发现的关联基因。这组基因在探索性分析中能够区分来源于TFR和复发样本的NK细胞。
3.4. 结局特异性转录因子网络区分TFR与复发
通过基因调控网络(GRN)推断,研究发现了与不同临床结局相关的核心转录调控模块。在TFR患者中,RUNX3、EOMES、ELK4和REL等转录因子的调控网络活性较高,其下游靶基因与细胞毒性、细胞因子信号和免疫监视功能相关。而在复发患者中,FOSL2和MAF等转录因子占据主导,其调控网络富集了炎症细胞因子、抗病毒反应和抑制性受体相关基因,提示了一种可能与功能失调或耗竭相关的NK细胞状态。
3.5. 通路富集和GO分析揭示NK状态间的功能特化
对每个NK细胞亚群的特异性高表达基因进行功能富集分析,进一步验证了它们的功能倾向。例如,细胞毒性状态富集了广泛的炎症和干扰素反应通路;免疫调节状态则显著富集抗原呈递相关通路;而CD56bright样状态则与NK细胞趋化和免疫调节功能相关。这从功能层面佐证了转录组定义的细胞状态具有生物学合理性。
综上所述,本研究通过GAFA这一整合性分析框架,系统性地揭示了NK细胞在CML患者TKI停药后结局决定中的关键作用。结论表明,持久的TFR并非仅仅依赖于细胞毒性NK细胞的“数量”,更与其“质量”和“发育状态”密切相关:即需要NK细胞群体保持成熟轨迹与细胞毒性轨迹的平衡,并由RUNX3/EOMES/ELK4/REL等转录因子主导的、利于持续免疫监视的调控程序所支撑。相反,复发,特别是早期复发,则与NK细胞发育轨迹失衡(偏向细胞毒性终末状态)、以及转向FOSL2/MAF主导的炎症/耗竭样调控网络相关。研究人员筛选出的18基因特征谱和识别出的关键调控因子,为未来开发预测TFR结局的生物标志物和干预靶点提供了宝贵的候选分子。这项研究的核心意义在于方法学和生物学发现两个层面:在方法学上,GAFA流程成功地将单细胞数据分析的多个割裂步骤整合到一个连贯的、机制驱动的框架内,为从复杂单细胞数据中提取具有生物学解释性和临床相关性的洞察树立了范例。在生物学上,它超越了以往对NK细胞的表型描述,从细胞状态动力学、发育轨迹和调控网络三个维度,深入阐释了NK细胞介导的免疫监视在CML停药后维持缓解中的具体作用机制,为通过免疫学策略改善CML患者的停药成功率指明了新的研究方向。尽管该研究受限于样本量较小,其发现仍需在更大规模的前瞻性队列中验证,但它无疑为理解和利用免疫系统攻克白血病残留病灶开启了崭新而深刻的一章。