《Nature Ecology & Evolution》:Alignment-free integration of single-nucleus ATAC-seq across species with sPYce
编辑推荐:
基因表达的变化在很大程度上决定了不同物种之间细胞身份和表型的差异。单核转座酶可及染色质测序(single-nucleus assays for transposase-accessible chromatin with sequencing, snATAC-s
基因表达的变化在很大程度上决定了不同物种之间细胞身份和表型的差异。单核转座酶可及染色质测序(single-nucleus assays for transposase-accessible chromatin with sequencing, snATAC-seq)是一种高效识别推定基因调控元件的策略,并为调控程序的进化分歧提供了新见解。然而,目前尚无专门用于整合和比较跨物种snATAC-seq数据的框架,而专为单细胞基因表达数据设计的方法存在严重局限性。研究人员在此介绍sPYce,一种跨物种snATAC-seq整合方法,该方法依赖于通过调控区域k-mer直方图分析序列组成相似性,无需基因组比对即可锚定不同物种的数据。sPYce能够将多个物种的数据集嵌入同一数学空间,并支持进一步的下游分析。研究人员在两个公开可用的数据集(覆盖超过1.6亿年进化历程)上,将sPYce与现有方法进行基准测试,结果显示它成功揭示了保守的细胞程序,同时保留了生物学相关的物种特异性差异。通过比较小鼠和负鼠的小脑发育,sPYce识别出颗粒细胞分化程序中的调控分歧,特别是由核因子1(nuclear factor 1, NF1)驱动的分歧。作为一种易于使用、无需比对的跨物种snATAC-seq整合方法,sPYce为比较跨物种的基因调控进化开辟了新视角。
**论文解读:sPYce——跨物种单核ATAC-seq数据的无比对整合新方法**
**一、研究背景、问题与意义**
在多细胞生物中,基因表达受到非编码顺式调控元件(cis-regulatory elements, CREs)的精细调控,这些元件确保转录因子(transcription factors, TFs)在可及染色质区域结合,从而调控细胞身份和响应信号。CREs的保守性与创新性在细胞类型维持和表型进化中均起关键作用,因此基因调控进化是演化生物学的研究热点。近年来,单核转座酶可及染色质测序(snATAC-seq)技术的出现,使得在单细胞分辨率下识别活性调控区域成为可能,为揭示调控元件的进化动态提供了新机遇。然而,跨物种比较snATAC-seq数据面临严峻挑战:CREs进化迅速,即使核心细胞身份和转录因子保持保守,其基因组位置和同源性也常丢失,导致无法直接使用单物种的计算框架进行跨物种分析。现有替代方案(如仅分析直系同源非编码区域、从调控数据推断转录活性并借用单细胞转录组比较流程,或基于转录因子结合位点(TFBS)模体的人工分析)均存在局限:前者忽略非直系同源区域对表型差异的贡献,后者未直接处理调控序列本身的进化,而人工方法需要大量物种特异性前期分析。因此,迫切需要一种统一的、通用的方法,能够在不忽略数据重要特征的前提下整合和比较跨物种snATAC-seq数据。
**二、主要技术方法概述**
sPYce方法的核心创新在于完全避免跨物种基因组比对,仅依赖序列组成相似性。其主要步骤包括:(1)对每个物种的snATAC-seq数据进行标准预处理(读段比对、质量控制和峰值(peak)识别),获得细胞-峰值矩阵;(2)从每个细胞的可及调控区域中,通过有放回采样校正GC含量偏差,生成k-mer(k=5-7)直方图,得到细胞-k-mer矩阵(KMer矩阵);(3)对KMer矩阵进行单位总和归一化和中心化,再通过主成分分析(principal component analysis, PCA)降维;(4)利用Harmony算法对主成分进行跨物种局部校正,消除序列组成和细胞类型组成的偏差,得到共同的数学表示。该方法所需的样本队列来源为已公开数据集:小鼠(Mus musculus)和负鼠(Monodelphis domestica)小脑发育snATAC-seq数据(E-MTAB-9765和E-MTAB-10533),以及猕猴(Macaca fascicularis)、猪(Sus scrofa)和山羊(Capra hircus)的性腺发育snATAC-seq数据。sPYce还支持基于k近邻的细胞类型标签跨物种转移,以及通过位置权重矩阵(position weight matrices, PWMs)计算每个细胞的TFBS富集分数。
**三、研究结果**
**1. Single-cell k-mer histograms enable alignment-free co-embedding of cross-species snATAC-seq datasets**
研究人员展示了sPYce能够将小鼠和负鼠(约1.6亿年分歧)的小脑发育snATAC-seq数据成功整合,细胞类型在统一空间中分离良好;同样,猕猴、猪和山羊(约9000万年分歧)的性腺数据也获得合理整合。实验表明k=5-7为最佳k-mer长度,且使用完整k-mer(而非带间隙k-mer)在整合质量和计算成本之间取得平衡。
**2. sPYce improves cross-species snATAC-seq integration**
研究人员将sPYce与两种常用替代方案进行基准测试:(1)基于一对一直系同源非编码区域的整合(one2one),仅保留10.48%小鼠和16.38%负鼠的峰值区域;(2)基于基因分数(gene scores)通过SAMap整合。采用平均轮廓宽度(ASW)衡量物种重叠,调整兰德指数(ARI)、马修斯相关系数(MCC)和F1分数衡量细胞类型分离。结果显示sPYce获得最高ASW(0.977)和最佳整体细胞类型分离(ARI=0.794,宽泛注释),优于one2one(ASW=0.900,ARI=0.315)和基因分数(ASW=0.466,ARI=0.078)。在详细注释(包含颗粒细胞分化阶段)中,one2one的ARI稍高(0.908),但sPYce在每集群指标(MCC、F1分数)上始终最优。在基于共享最近邻图的最大连通成分(LCC)分析中,sPYce也保持最高结构相似性(LCC=0.67)。此外,sPYce保留的细胞类型间调控分歧与基于TFBS模体存在性的参考测量最接近(Spearman ρ=0.382),而其他方法为负相关。
**3. Cross-species integration allows cell type label transfer between species**
sPYce的统一嵌入空间支持直接进行标签转移。小鼠到负鼠的标签转移准确率达84.6%(ARI=0.703,5近邻)。在更复杂的三物种性腺数据中,从猕猴向猪和山羊转移标签,81.39%的细胞与参考注释一致(ARI=0.531),主要误差源于基质细胞和颗粒细胞在KMer表示中的重叠。
**4. sPYce identifies cardinal cell type TFBS motifs**
sPYce通过将KMer矩阵与TFBS模体概率矩阵相乘,获得每个细胞的TFBS分数,从而识别细胞类型特异性TFBS富集。在整合的小脑数据中,sPYce成功鉴定出已知的关键TFBS模体(如颗粒细胞中的NeuroD1和ZEB1,小胶质细胞中的PU.1),并且细胞类型间共享的TFBS模体反映了功能相似性(神经元之间更相似)。与HOMER和SnapATAC2的基准比较表明,尽管sPYce使用完全不同的数据表示(无需差异可及区域),其富集结果与两者具有良好一致性,且sPYce与任一方法的一致性高于HOMER与SnapATAC2之间的一致性。
**5. sPYce discovers species-specific divergence in regulatory programmes**
通过比较小鼠和负鼠小脑发育中相同细胞类型的TFBS分数分布(双样本Kolmogorov–Smirnov检验),研究人员发现仅分化中颗粒细胞和成熟颗粒细胞中存在显著差异分布的TFBS模体(分别为3个和41个)。特别地,核因子1(NF1)在这两种细胞类型中均显著差异。进一步分析显示,NF1模体在小鼠分化中颗粒细胞中富集,而在负鼠中相对缺失,这与负鼠外颗粒层(EGL)维持时间更长(5个月 vs. 2周)的已知发育差异一致,提示NF1可能调控颗粒细胞迁移速率。
**四、总结与讨论**
本研究提出了sPYce,一种无需基因组比对的跨物种snATAC-seq整合框架。sPYce的核心优势在于完全依赖可及区域内的保守调控序列模体(而非直系同源位置),因此能利用几乎所有可测到的可及区域,避免了直系同源区域随进化距离急剧减少的问题。其性能依赖于峰值调用的质量和分辨率——宽泛或低质量的峰值会降低信噪比。虽然sPYce不直接关联k-mer进化与表型,但它为跨物种调控基因组学提供了便捷的统一分析平台。研究结论部分翻译如下:“总之,我们提出了一个综合框架,以促进跨物种snATAC-seq数据的整合,该框架捕获细胞类型身份的保守性,同时保留可能具有功能相关性的分歧。关键在于,sPYce仅依赖于序列信息内容,完全绕过了调控信号的基因组位置,这使其从根本上不同于其他单细胞整合方法。这一范式使sPYce能够将不同物种的数据无缝嵌入一个联合空间,使得下游分析显著简化,为比较调控基因组学开辟了新途径。” sPYce的源代码已公开(https://gitlab.pasteur.fr/cofugeno/spyce)。