《PLOS Computational Biology》:scMagnifier: Resolving fine-grained cell subtypes via GRN-informed perturbations and consensus clustering
编辑推荐:
在单细胞RNA测序(single-cell RNA sequencing,scRNA-seq)数据中解析精细细胞亚型仍然具有挑战性,因为其微小的转录差异常被技术噪声和数据稀疏性所掩盖。在此,研究人员提出了scMagnifier,一个共识聚类(consensus
在单细胞RNA测序(single-cell RNA sequencing,scRNA-seq)数据中解析精细细胞亚型仍然具有挑战性,因为其微小的转录差异常被技术噪声和数据稀疏性所掩盖。在此,研究人员提出了scMagnifier,一个共识聚类(consensus clustering)框架,利用基因调控网络(gene regulatory network,GRN)信息驱动的计算机模拟扰动(in silico perturbation)来放大微小的转录差异并揭示潜在的细胞亚群。scMagnifier扰动候选转录因子(transcription factor,TF),通过簇特异性GRN传播扰动效应以模拟扰动后的表达谱,并将多次扰动的聚类结果整合为稳定的亚型分配。此外,scMagnifier引入了调控扰动共识UMAP(regulatory perturbation consensus UMAP,rpcUMAP),这是一种感知扰动的可视化方法,可在细胞亚型之间提供更清晰的分离,并指导最佳聚类数的选择。在单批次和多批次基准测试中,scMagnifier持续提高了精细细胞类型识别的分辨率和准确性。值得注意的是,当与STAGATE等空间聚类方法整合时,scMagnifier与空间转录组学工作流兼容,并能有效揭示卵巢癌中的肿瘤细胞亚型及其空间组织。
以下是根据论文主体内容撰写的学术解读文章,严格按照要求浓缩原文信息,避免推测,保留专业术语及上下标格式。
---
**研究背景与问题**
单细胞RNA测序(single-cell RNA sequencing,scRNA-seq)技术已能以单细胞分辨率进行全转录组分析,极大推动了对细胞异质性的理解。无监督聚类是scRNA-seq分析流程中的标准步骤,用于识别离散的细胞类型和连续的细胞状态。现有工具能准确解析主要细胞类型(如免疫组织中的T/B淋巴细胞、脑中的神经元和胶质细胞、实体瘤中的上皮和基质细胞),但解析转录水平高度相似的精细细胞亚型(如活化与静息免疫细胞、肿瘤内恶性上皮亚克隆、稀有细胞群)仍具挑战。其原因在于scRNA-seq数据的高维度、稀疏性和噪声常掩盖微小但生物学上有意义的转录差异,限制了聚类方法对精细异质性的分辨能力。值得注意的是,转录相似的细胞群由于底层基因调控网络(gene regulatory network,GRN)的差异,可能对调控扰动产生不同响应,这为揭示隐藏异质性提供了有力手段。已有研究(如CellOracle、scRank、scTenifoldKnk)利用计算机模拟基因扰动模拟关键生物学过程,展示了GRN信息扰动在揭示功能相关细胞异质性方面的潜力。受此启发,研究人员推断对GRN中的候选TF进行扰动可放大微小转录差异,从而促进精细细胞亚型的鉴定;同时,不同调控网络扰动可产生不同细胞响应模式,需整合多次扰动结果以获得稳定聚类和清晰亚群边界。共识聚类策略能有效整合多种结果,但现有方法通常对同一表达矩阵重复聚类以产生集合多样性,虽提高了对随机变异的稳健性,却未能增强用于区分细胞亚型/状态的核心生物学信号。而将GRN信息扰动驱动的聚类结果整合到共识聚类框架中,可捕获亚群对不同调控扰动的差异化响应,从而形成稳健且可解释的精细细胞类型边界。
**研究内容与结论**
基于上述思路,研究人员开发了名为scMagnifier的GRN信息扰动驱动的共识聚类框架。通过整合标准聚类算法、批次整合方法或空间聚类工具,scMagnifier可应用于单批次、多批次和空间转录组数据集。大量基准测试表明,scMagnifier持续提高了精细细胞类型识别的分辨率和准确性,并增强了稀有细胞群的检测。此外,scMagnifier将扰动诱导的聚类信息整合到UMAP算法中,生成名为调控扰动共识UMAP(regulatory perturbation consensus UMAP,rpcUMAP)的感知扰动可视化方法,可在细胞亚型之间提供更清晰的分离,并指导最佳细胞类型数的选择。论文发表在《PLOS Computational Biology》。
**主要关键技术方法**
研究人员使用了以下主要技术方法:(1)基于CellOracle框架构建簇特异性GRN:利用人类启动子为基础的GRN作为先验调控信息,通过回归方法建模TF与其靶基因的调控关系,并基于初始聚类结果筛选簇特异性调控链接。(2)计算机模拟TF基因表达水平扰动:对候选TF基因应用±10%的倍数变化,通过簇特异性GRN迭代传播扰动效应(3次迭代),生成扰动后基因表达矩阵,再经标准预处理管线获得扰动驱动聚类结果。(3)共识聚类:将每次扰动聚类结果转化为独热矩阵,计算细胞间的余弦距离作为扰动信息距离;同时从原始表达矩阵的PCA嵌入计算欧氏距离;通过加权融合(默认权重α=0.8)构建组合距离矩阵,基于该矩阵构建KNN图(k=10)并进行高分辨率聚类(分辨率1.5),再经两步合并(质心距离合并与小簇合并,默认小簇阈值1%总细胞数)得到最终稳定共识簇。(4)rpcUMAP可视化:以组合距离矩阵作为预计算距离度量,使用UMAP算法生成低维嵌入。(5)多批次扩展:使用Harmony、Scanorama或scVI等批次校正方法生成的嵌入代替PCA空间,其余步骤不变。(6)空间转录组整合:以STAGATE生成的空间嵌入替代PCA空间,其余步骤不变。样本来源包括四个公开的肺腺癌单细胞数据集(LN_04、EBUS_10、LUNG_N30、LUNG_N09)、整合胰腺数据集、BMMC数据集、UPN19_pre数据集,以及来自SPATCH网站的上皮性卵巢癌空间转录组数据集(包含48,793个细胞)。
**研究结果**
**Overview of scMagnifier**:scMagnifier以原始基因表达矩阵(gene expression matrix,GEM)和基本GRN为输入。首先通过标准聚类获得初始聚类结果,构建簇特异性GRN。核心步骤是对每个候选TF进行扰动,通过簇特异性GRN传播效应,生成扰动后GEM并获得扰动驱动聚类。通过共识聚类整合所有扰动结果,并结合GEM衍生的距离,构建组合距离矩阵,用于KNN图构建、共识聚类和rpcUMAP生成。初始高分辨率共识簇经质心距离和小簇合并得到最终稳定簇。该方法可扩展至多批次和空间转录组数据。
**Benchmarking scMagnifier in real datasets**:在四个单批次肺腺癌数据集上,与Leiden、Louvain、scVI(Leiden)、scVI(Louvain)、SC3s、DBSCAN、Hierarchical等方法对比,scMagnifier(基于Leiden或Louvain)在调整兰德指数(adjusted Rand index,ARI)和归一化互信息(normalized mutual information,NMI)上持续最高,并显著提升轮廓分数(silhouette score)。在两个多批次数据集(整合胰腺数据集和BMMC数据集)上,将BBKNN、Harmony、Scanorama、scVI等批次校正方法单独使用或与scMagnifier组合,scMagnifier+批次校正方法在ARI、NMI和轮廓分数上均优于单独方法。消融实验证实各模块互补贡献。在BMMC数据集的髓系谱系富集区中,scMagnifier+scVI精确划分了亚簇边界,而scVI将粒细胞-单核细胞祖细胞(granulocyte-monocyte progenitors,G/M prog)与CD14
+单核细胞边界画错。rpcUMAP可视化比常规UMAP更清晰分离细胞簇,并提示0号簇内存在两个增殖相关基因(CENPE、MKI67)差异表达的亚群,支持将该区域细胞类型数从4修订为5。扰动BCL11A(浆细胞样树突状细胞关键调控因子)实验显示,随着扰动倍数增加,pDC簇与周围细胞逐渐分离,证明扰动放大了生物学差异。
**scMagnifier reveals hidden heterogeneity within MAIT/Th1-Th17 populations**:在UPN19_pre数据集中,标准Leiden聚类将黏膜相关恒定T细胞(mucosal-associated invariant T,MAIT)与Th1/Th17-MAIT混合群归为同一簇。scMagnifier在rpcUMAP空间中将该混合群清晰分离为两个簇(簇2和簇16)。差异表达分析显示簇2高表达细胞毒性相关基因(CD8A、NKG7、NCR3、PRF1),簇16高表达Th1/Th17相关基因。KEGG通路富集分析证实簇2富集自然杀伤细胞介导的细胞毒性通路,簇16富集炎症性肠病通路。TF重要性评分显示STAT1在簇16中排名第二,而在簇2中不突出,STAT1是Th1/Th17免疫反应的关键调控因子。这些结果一致证明scMagnifier揭示了被常规聚类掩盖的MAIT细胞向细胞毒性或Th1/Th17样程序分化的异质性。
**scMagnifier enables the identification of rare immune cell types with distinct regulatory programs**:在EBUS_10数据集中,scMagnifier识别出两个小簇R1(18细胞,0.40%)和R2(16细胞,0.36%),常规高分辨率聚类和GiniClust3均未检测到,Scrublet排除双细胞。rpcUMAP中R1和R2与周围细胞清晰分离。通过Jaccard系数比较差异表达基因相似性,R1与生发中心暗区(dark zone,DZ)B细胞(Jaccard=0.33)及黏膜相关淋巴组织B细胞(mucosa-associated lymphoid tissue,MALT B cells,Jaccard=0.12)相似;R2与DZ B细胞相似(Jaccard=0.41)。R1高表达CCND2和UBE2S(与增殖相关),R2高表达EBI3和TLR10(与活化和免疫调节相关)。在LUNG_N30数据集中,scMagnifier识别出小簇R3(36细胞,1.25%),常规聚类和GiniClust3未发现。Jaccard相似性显示R3与自然杀伤(NK)细胞重叠最大(0.37)。R3高表达ID2(NK细胞发育关键转录因子)、IFNG(效应细胞因子)、GIMAP7和TBC1D10C(淋巴细胞活化相关),提示R3可能是CD56
bright NK细胞亚群。
**Integration of scMagnifier with STAGATE reveals tumor cell subtypes and spatial organization in ovarian cancer**:在卵巢癌空间转录组数据(48,793细胞)中,scMagnifier+STAGATE鉴定出5个肿瘤亚簇(簇0、2、4、7、9),对应肿瘤核心区域。差异表达和GO富集分析显示各亚簇具有不同分子和功能特征。簇2的空间定位与H&E染色中深染区域高度重叠,高表达IGF2(与肿瘤生长和侵袭相关),功能富集到凋亡负调控和细胞外结构组织通路,提示其为高侵袭性肿瘤亚群。STAT2扰动后,簇2区域在空间图上变得显著突出,表明扰动放大了该簇的生物学差异。
**讨论与结论**
讨论部分指出,精确划定细胞亚群及其边界仍具挑战,尤其是转录差异微小或被噪声和批次效应掩盖时。scMagnifier通过系统扰动TF基因放大调控差异,再经共识聚类获得稳定亚型分配和清晰边界。在MAIT/Th1-Th17群体中揭示隐藏异质性,检测到稀有细胞群,并整合STAGATE鉴定出卵巢癌五种亚型及侵袭区域。研究强调,GRN扰动模型能揭示潜在生物信号,但当前扰动未模拟真实扰动后细胞状态,未来可整合CellOT等最优传输模型提升生物保真度。rpcUMAP通过纳入扰动派生距离增强簇间分离,但许多细胞状态由转录组之外的特征定义,扩展至多模态测量可提高检测灵敏度。结论部分翻译如下:准确划定细胞亚群及其边界仍具挑战,尤其是当转录差异微小或被噪声和批次效应掩盖时。在本研究中,研究人员提出了scMagnifier,一个调控扰动驱动的共识聚类框架,旨在解析精细细胞亚型。scMagnifier首先通过系统扰动TF基因放大微小调控差异以揭示潜在亚簇,然后通过共识聚类整合多次扰动结果,获得稳定的亚型分配和清晰的边界。研究人员在多项应用中展示了scMagnifier的实用价值。研究人员发现scMagnifier清晰揭示了MAIT/Th1-Th17群体中的隐藏异质性。研究人员进一步证实了scMagnifier检测稀有细胞群的能力。最后,通过整合scMagnifier和STAGATE,研究人员鉴定了卵巢癌的五个亚型,并在未使用病理图像的情况下检测到侵袭区域。