《Nature Communications》:CellNiche represents cellular microenvironments in atlas-scale spatial omics data with contrastive learning
编辑推荐:
为了解决空间组学数据中分子特征、空间背景与平台异质性高度耦合的难题,研究人员开发了CellNiche——一个可扩展的对比学习框架。该研究利用以细胞为中心的空间邻近子图,从图谱级空间组学数据中识别并刻画细胞微环境。研究成功整合了数百个样本,在非小细胞肺癌(NSCLC)队列和多个小鼠脑图谱中,系统揭示了保守与样本特异的肿瘤免疫微环境,并构建了统一的空间脑图,实现了跨图谱的注释迁移与空间精细化,为理解组织功能与疾病机制提供了新范式。
在我们身体的组织中,细胞并非孤岛,它们生活在由不同类型邻居细胞和信号分子构成的复杂“社区”中,这就是细胞微环境。理解这个微环境对于揭示组织如何正常运作,以及在癌症等疾病中如何失控至关重要。近年来,空间组学(Spatial Omics)技术的爆发式发展,让我们能够以前所未有的分辨率同时观测组织中成千上万个细胞的基因表达信息和它们的精确空间位置,生成了海量的“图谱级”数据。然而,机遇与挑战并存。如何从这些包含数百万细胞、横跨不同技术平台产生的庞大数据中,系统地、准确地识别出有生物学意义的细胞微环境,并比较不同样本、不同研究之间的发现,成为了一个巨大的计算与生物学难题。核心挑战在于,细胞的分子特征、其所处的空间背景、以及不同测序平台带来的技术异质性紧密地纠缠在一起,难以剥离。
为了攻克这一难题,研究人员在《Nature Communications》上发表了一项研究,他们开发了一个名为CellNiche的新型计算框架。这项研究的目标很明确:创建一个可扩展的、能够整合多平台多样本数据的分析方法,从而在 atlas-scale(图谱级)的空间组学数据中,稳定地识别、对比和解读细胞微环境。研究得出的核心结论是,CellNiche框架通过创新的对比学习策略,成功地整合了分子共表达与空间共定位两种关键信息,能够从海量、异质性的数据中学习到对微环境敏感的细胞表征。利用这个工具,研究人员在非小细胞肺癌和小鼠大脑等多个体系中,不仅发现了保守的(即在多个样本中普遍存在的)和样本特异的微环境结构,还实现了跨不同实验室、不同技术生成的数据集的整合与统一分析,绘制了更精细、更可靠的“空间细胞地图”。这项工作为大规模空间组学数据的标准化分析、跨研究比较以及发现新的生物学见解提供了强大的方法论基础。
为开展此项研究,作者主要运用了以下几个关键技术方法:首先,构建了以细胞为中心的空间邻近子图(cell-centric spatial-proximity subgraphs)作为分析的基本单元,用以捕捉局部微环境。其次,核心框架采用了基于对比学习(contrastive learning)的自监督深度学习模型,该模型结合了空间共定位(spatial co-localization)和分子共表达(molecular co-expression)的双重线索来训练模型。最后,研究涉及大规模的数据验证,使用了来自多个平台的空间组学数据集(总计超过1000万个细胞),包括一个人源非小细胞肺癌(NSCLC)多样本队列和四个独立的小鼠大脑图谱数据集(共293个组织切片),以验证框架的可扩展性、鲁棒性和生物学发现能力。
CellNiche框架设计原理与性能评估
研究人员首先详细阐述了CellNiche的算法设计。其核心创新在于将每个细胞及其局部邻居定义为一个“空间邻近子图”,并设计了一个对比学习目标,使模型学会关注哪些细胞对共享相似的微环境(正样本对),哪些则不共享(负样本对)。通过这种方式,模型能够无监督地学习到每个细胞的低维嵌入(embedding),这个嵌入同时编码了其分子特征和空间上下文信息。在大规模缩放实验中,他们证实了随着训练数据量的增加,CellNiche学到的表征质量持续提升,并且在细胞聚类和嵌入质量评估指标上,相比其他方法展示了具有竞争力的性能,同时保持了较高的计算效率。
在人类非小细胞肺癌(NSCLC)队列中揭示肿瘤微环境异质性
将CellNiche应用于一个包含多个样本的人非小细胞肺癌空间转录组数据集后,研究取得了重要的生物学发现。算法成功识别出多种保守的(跨样本普遍存在)和样本特异的细胞微环境。例如,他们发现了一个与三级淋巴结构相关的、富含B细胞和CD4+T细胞的免疫微环境,以及一个由恶性细胞、癌相关成纤维细胞和髓系细胞主导的免疫抑制性肿瘤微环境。更重要的是,CellNiche能够捕捉到这些微环境之间的空间过渡关系,例如从富含细胞外基质的区域向高增殖肿瘤细胞区域的局部转变,这为理解肿瘤内部的空间异性和功能分区提供了新视角。
跨小鼠脑图谱的空间整合与统一映射
为了展示CellNiche在整合跨研究数据方面的强大能力,研究人员将其应用于来自四个独立实验室的小鼠大脑空间图谱数据(共293张切片)。尽管这些数据在技术平台、样本处理和分辨率上存在差异,CellNiche成功地将所有切片对齐并整合到一个统一的三维虚拟大脑坐标系中。这一“统一虚拟脑图”实现了高质量的跨图谱细胞类型注释迁移,即利用一个已精细注释的图谱信息,来帮助解读另一个注释信息较少或不完整的图谱。CellNiche还能进一步对原有注释进行空间精细化,例如,它识别出了初级体感皮层中不同层次内更精细的空间亚区,展示了超越传统单细胞聚类分析的空间解析能力。
本研究通过开发CellNiche这一计算框架,为图谱级空间组学数据的分析提供了系统性的解决方案。该研究的主要结论是,通过结合对比学习和细胞中心的空间子图建模,能够有效地解耦分子、空间和平台异质性,从而稳健地表征细胞微环境。其在非小细胞肺癌数据中的应用,不仅验证了已知的肿瘤免疫微环境,还揭示了新的空间组织模式;而在跨多个独立脑图谱数据中的成功整合与统一绘图,则证明了该方法在实现数据标准化、促进跨研究比较与发现方面的巨大潜力。在讨论中,作者强调了CellNiche的可扩展性和通用性,它能够适应不断增长的数据规模和多样化的空间组学技术。这项工作的重要意义在于,它朝着建立空间组学数据“通用坐标框架”和标准化分析流程迈出了关键一步,将极大地推动我们对复杂组织中细胞社会性互动的理解,并为疾病生物学、特别是肿瘤微环境和脑科学的研究,提供了一个强大的新工具。