编辑推荐:
面对单细胞组学数据的爆炸式增长与异质性挑战,该研究系统阐述了细胞本体论(CL)如何通过提供标准化的物种无关细胞类型术语,成为实现FAIR数据原则及支撑HCA、BICAN等图谱计划的核心框架,并探讨了利用LLM协调经典与转录组定义及优化工作流程的重要意义。
如果把生物学比作一门语言,那么细胞就是它的“单词”。在过去,我们只能在组织甚至器官的水平上去粗线条地理解生命;而如今,单细胞组学(single-cell omics)技术的爆发,让我们得以把每一个“单词”拆开,在前所未有的高分辨率下审视单个细胞的秘密。这使得我们对细胞多样性有了革命性的认知。然而,当全球实验室开始产出海量的单细胞数据(如单细胞转录组学、空间转录组学等)时,一个新的麻烦也随之而来:这些数据规模空前且高度异质,不同研究团队对同一种细胞可能有完全不同的命名方式(“免疫B细胞” vs “B lymphocyte” vs “CD19+ cell”),导致数据难以整合、查找和复用,形成了大量的“数据孤岛”。
为了解决这一困境,实现数据可查找(Findable)、可访问(Accessible)、可互操作(Interoperable)和可重用(Reusable)的FAIR原则成为了当务之急。在此背景下,细胞本体论(Cell Ontology, CL)应运而生并不断发展,它提供了一套标准化的、物种无关的规范细胞类型术语,成为了连接经典细胞生物学知识与现代组学数据的关键桥梁。相关研究论文发表在《Scientific Data》上。
为了应对单细胞组学时代的需求,以Shawn Zheng Kai Tan、Aleix Puig-Barbe、David Goutte-Gattat等人为代表的研究人员,详细描述了CL在各类平台和工具中的广泛应用,并阐述了目前正在进行的CL内容改进与扩展工作。这包括添加转录组定义的细胞类型(transcriptomically defined types),并与人类细胞图谱(Human Cell Atlas, HCA)以及脑计划细胞图谱网络(Brain Initiative Cell Atlas Network, BICAN)等主要的图谱绘制项目密切合作,以满足大规模科研需求。此外,研究团队还探讨了协调经典细胞类型定义与转录组细胞类型定义的挑战,以及整合标记物(markers)和使用大型语言模型(Large Language Models, LLMs)来提升CL工作流程内容与效率的未来计划。
主要关键技术方法
本研究属于论述性与资源型研究,主要通过对细胞本体论(CL)在现有单细胞组学平台与工具中的应用案例进行系统梳理,并结合与HCA、BICAN等大型细胞图谱项目的深度协作经验,详细阐述CL内容的扩展策略(如纳入转录组定义类型)与未来技术路线。文中特别探讨了引入大型语言模型(LLM)以辅助本体内容编纂及优化工作流程的可行性与规划,同时涉及对经典细胞类型定义与数据驱动的细胞类型定义之间协调统一的 ontological(本体论)工程分析。
细胞类型的FAIR数据注释
随着单细胞组学技术产生大规模多样化数据集,将组学数据与解剖学、组织微环境等背景下的细胞类型先验知识联系起来变得至关重要,而传统知识多以非标准化自由文本存在。使用CL等本体术语进行标注是实现FAIR原则的关键。CL为细胞类型、组织、发育阶段和疾病提供了一致的标注及明确标识符,其术语间通过生物学意义相关联(如链接解剖位置、功能、细胞表面标记等),构成知识图谱骨干,不仅支持数据整合与搜索,还可作为机器学习的输入。
细胞本体论(CL)
CL自2004年发布首版以来,一直是FAIR标注细胞类型数据的基础资源,涵盖哺乳动物精细细胞类型及其他后生动物通用类别,并映射到模式生物(如非洲爪蟾、斑马鱼、果蝇)的特定本体以促进互操作性。作为开放生物与生物医学本体库(OBO Foundry)的核心成员,CL遵循标准化关系与分类定义,与基因本体(Gene Ontology, GO)、解剖学本体(Uberon)等紧密集成。CL术语基于经典结构、功能和分子标准定义(如嗜碱性粒细胞由核形态、颗粒及表面标记定义),并允许多继承分类(如气管杯状细胞同时归属杯状细胞和气管上皮细胞),利用OWL逻辑自动化错误检查。此外,CL正在扩展整合标记物信息,并探讨通过链接参考数据及派生标记集来定义“T类型”(transcriptomically defined types)。
CL在平台、工具和图谱工作中的广泛应用
CL已被HuBMAP、HCA、cellxgene平台、单细胞表达图谱(Single Cell Expression Atlas)、BICAN(曾用名BICCN)、ArrayExpress、细胞图像库(The Cell Image Library)、ENCODE和FANTOM5等多个重大项目及工具采纳,用于细胞类型注释及促进细胞参考图谱绘制。尤其在HCA和BICAN等图谱网络中,CL为跨研究、跨模态的数据整合提供了统一的细胞类型术语基础,支持这些大规模 effort 的元数据标准化需求。
挑战与未来方向:协调经典类型与转录组类型、整合标记物及LLM的使用
单细胞聚类分析常产生数据驱动的转录组定义细胞类型,其与基于结构与功能的经典CL类型之间存在差异与协调难题。未来工作致力于在CL中系统地加入转录组定义类型,并整合标记物数据(需注意标记物依赖解剖与实验背景)。同时,研究团队计划利用LLM来辅助CL内容的编纂、查错及提升工作流程效率,以应对本体内容快速增长与维护的复杂性。
总结与展望
综上所述,在单细胞组学飞速发展的当下,细胞本体论(CL)已不仅仅是静态的分类词汇表,而是实现全球细胞数据FAIR原则、支撑HCA和BICAN等里程碑式图谱计划的核心基础设施。通过不断吸纳转录组定义类型、系统整合标记物,并探索利用大型语言模型(LLM)优化本体编纂与维护流程,CL将持续进化,在桥接经典细胞生物学知识与数据驱动的新型细胞类型发现、推动跨物种及跨模态的大规模数据整合与重用中发挥不可替代的作用。