基于基因功能注释的监督深度学习细胞分类方法

《PLOS Computational Biology》：Supervised deep learning with gene functional annotation for cell classification

【字体：大中小】 时间：2026年06月02日 来源：PLOS Computational Biology 3.6

编辑推荐：

　　基于基因功能注释的监督深度学习（Supervised Deep Learning with gene functional ANnotation, SDAN）是一种将基因功能注释信息（例如蛋白质-蛋白质相互作用）与基因表达谱通过图神经网络（Graph Neur

基于基因功能注释的监督深度学习（Supervised Deep Learning with gene functional ANnotation, SDAN）是一种将基因功能注释信息（例如蛋白质-蛋白质相互作用）与基因表达谱通过图神经网络（Graph Neural Network, GNN）相结合的方法。该方法识别出能够最优分类细胞的功能一致性基因集，并且由此产生的细胞水平分类分数可以被聚合以进行个体水平的预测。研究人员在三个旨在识别与严重COVID-19、痴呆症和癌症免疫治疗反应相关的基因集的真实数据应用中，对SDAN与三种代表性的现有方法进行了评估。在所有应用中，SDAN通过同时实现两个目标——准确的结局分类以及将基因清晰地分配到功能相关的基因集中，始终优于替代方法。 SDAN是一种计算方法，它在基因集水平上总结了单细胞RNA测序（scRNA-seq）的差异表达结果。这些基因集经过学习以实现两个互补的目标：准确的细胞分类和连贯的生物功能表征。在实践中，基因集比冗长的差异表达基因列表更容易解释。研究人员展示了SDAN在三个真实世界数据集中的实用性，表明其识别出的基因集不仅能够区分细胞，还能根据临床结局对个体进行分类。

论文解读

研究背景

单细胞RNA测序（single-cell RNA-sequencing, scRNA-seq）数据分析中的一个关键步骤是逐基因差异表达（Differential Expression, DE）分析，随后通常是识别富集在这些差异表达基因中的生物学过程。然而，由于现代scRNA-seq数据集往往包含大量的细胞，DE分析经常产生极小的p值，即使相应的效应量微乎其微。这导致研究人员通常需要应用额外的临时过滤来获得可解释的结果。为了克服这一挑战，研究人员转而专注于直接识别能够准确分类细胞的基因集。基因集通常比冗长的差异表达基因列表更具生物学可解释性，且分类准确性在实际应用中往往比单纯的p值更具相关性。现有的深度学习方法在scRNA-seq中的应用大多集中在无监督任务，如降维、去噪、聚类和批次校正，而在有监督预测方面存在局限。此外，传统的神经网络模型常作为“黑盒”运行，缺乏固有的可解释性。为此，本研究开发了一种名为基于基因功能注释的监督深度学习（Supervised Deep Learning with gene functional ANnotation, SDAN）的图神经网络（Graph Neural Network, GNN）方法，旨在整合基因功能注释信息与基因表达数据，以解决上述痛点。该论文发表于《PLOS Computational Biology》。

关键技术方法

研究人员采用了三个真实的scRNA-seq数据集来验证SDAN的性能：来自49例轻症和32例重症COVID-19患者的约42,000个CD4⁺T细胞和约24,000个CD8⁺T细胞数据；来自西雅图阿尔茨海默病细胞图谱（Seattle Alzheimer’s Disease Cell Atlas, SEA-AD）联盟的84名捐赠者（42名痴呆症患者，42名非痴呆症患者）的约70,000个星形胶质细胞（astrocyte）和约40,000个小胶质细胞/血管周巨噬细胞（microglia/perivascular macrophage）数据；以及分别来自Sade-Feldman等人（训练集）和Yost等人（测试集）的癌症患者肿瘤浸润CD8⁺T细胞数据，用于评估免疫检查点抑制剂（Immune Checkpoint Inhibition, ICI）的治疗反应。核心技术方法包括：构建基于BioGRID数据库的蛋白质-蛋白质相互作用基因-基因相互作用图；利用图卷积网络（Graph Convolutional Networks, GCN）进行基因表达的低维隐藏表示学习；采用图池化（graph pooling）操作将具有相似表达模式和注释的基因分配到同一基因程序中，并通过最小化交叉熵损失（cross-entropy loss）优化分类准确性，同时通过无监督图损失（minCUT loss）确保基因集的功能连贯性。

研究结果

Overview of SDAN

SDAN被视作一种两步法。第一步，它整合scRNA-seq数据与基因功能注释，利用图神经网络（GNN）识别基因程序。每个基因程序被表示为基因的线性组合，通过图池化操作学习得到，其中具有相似表达模式和相似注释（即在图中相连）的基因被汇集到同一个基因程序中。目标函数包含一个鼓励稀疏载荷的正则化项，使得基因对基因程序的分配近乎二元，从而将学习到的基因程序解释为基因集。第二步，将scRNA-seq数据投影到这些基因程序上，利用得到的基因程序级表示通过多层感知机（Multilayer Perceptron, MLP）对细胞进行分类。GNN和多层感知机的两个神经网络组件是联合训练的。研究人员强调，SDAN的主要目标是学习与感兴趣表型相关的可解释基因程序，而不仅仅是优化预测准确性。

Gene expression in CD8+/CD4+ T cells can distinguish severe from mild COVID-19 patients

利用来自轻症和重症COVID-19患者的CD8⁺和CD4⁺T细胞数据，研究人员评估了不同无监督损失权重对预测的影响。当无监督损失权重较小时，许多基因程序为空；随着权重增加，非空基因程序数量增加并最终稳定在40个。增加无监督损失权重导致推断基因程序的结构连贯性更强。尽管细胞水平的预测准确性随权重增加而略有下降，但个体水平的预测分数（通过对患者内细胞水平分数求平均获得）更加稳定，曲线下面积（Area Under the Curve, AUC）介于0.94至0.97之间。研究人员选择无监督损失权重为2，以平衡预测性能和基因注释的使用。研究发现，SDAN预测分数在来自重症和轻症患者细胞之间存在显著差异。进一步的基因集富集分析显示，某些基因程序（如程序20）富集了SARS-CoV-2调节自噬的反应组学途径（reactome pathway）和SNARE复合体组装的GO术语。这表明T细胞基因表达能有效区分COVID-19的严重程度，且只有一部分来自重症患者的T细胞可能促进疾病进展。

Gene expression in astrocyte or microglia can distinguish dementia status

应用SDAN分析SEA-AD联盟的snRNA-seq数据，研究人员旨在利用星形胶质细胞或小胶质细胞-PVM细胞基因表达对痴呆状态进行分类。与COVID-19分析相比，从这两类脑细胞预测痴呆状态更具挑战性。虽然许多星形胶质细胞和小胶质细胞-PVM细胞在痴呆和非痴呆捐赠者之间的预测分数相似，但其中一部分细胞在痴呆捐赠者中表现出较高分数。个体水平的预测分数仅能部分区分痴呆与非痴呆捐赠者，星形胶质细胞和小胶质细胞-PVM的AUC分别为0.744和0.735。然而，当联合考虑两者的预测分数时，研究人员识别出一组具有高个体水平分数的痴呆亚群，命名为dementia-i（免疫系统活跃），其余为dementia-s（免疫沉默）。神经病理学测量显示，dementia-i捐赠者具有更高的Braak分期，且磷酸化tau蛋白（pTau）和β-淀粉样蛋白（Amyloid beta）测量值显著更高，表明该亚群患有更晚期疾病。

Gene expression in CD8+ T cells can predict cancer patients’ response to immunotherapy

研究人员应用SDAN识别与ICI反应相关的基因程序，并在独立测试集上评估其跨研究泛化能力。尽管测试数据中细胞水平的分类性能一般（AUC 0.53），但在跨细胞聚合信息后，个体水平的AUC达到0.66。对SDAN识别的基因集进行功能类别富集分析发现，排名最高的是涉及线粒体功能的基因集1。该基因集包含23个基因，涉及线粒体核糖体蛋白、线粒体转录或翻译、线粒体甲硫氨酰-tRNA甲酰转移酶（MTFMT）、线粒体tRNA合成酶（SARS2和EARS2）以及NADH:泛醌氧化还原还原酶。这些基因捕捉了线粒体翻译和氧化磷酸化能力，反映了T细胞的代谢适应性，这与维持T细胞持久性和反应性密切相关，可能改善对免疫检查点阻断的反应。重要的是，这些基因均不位于线粒体染色体上，排除了质量控伪影的可能性。

Comparison of SDAN vs. Spectra, sciRED, and scNET

研究人员将SDAN与Spectra、sciRED和scNET这三种代表性现有方法进行了比较。在分类性能方面，四种方法在细胞水平和个体水平分类上均取得了可比的性能。然而，在基因程序的结构和解释性方面存在显著差异。SciRED未对基因载荷施加稀疏性约束，导致每个基因程序通常涉及数千个非零权重的基因，难以解释。Spectra虽强制稀疏性，但其推断的基因集在底层注释图中的连接性低于SDAN。SDAN识别的基因集在已知基因-基因注释网络中表现出更强的内部连接性，提供了优越的解释性。ScNET由于缺乏明确的基因加载矩阵，难以提取直接可比的基因程序及相应基因集，限制了其与SDAN在侧重解释性方面的比较。

讨论与结论总结

研究人员指出，诸如基因-基因相互作用之类的生物学知识通常是嘈杂的，并且可能因组织和条件的不同而有所变化。因此，将此类知识纳入深度学习方法时，保留足够的灵活性以学习任务相关的生物学信息子集至关重要。SDAN通过将监督分类损失与无监督图损失相结合来解决这一挑战，从而青睐那些既符合生物学知识又能区分细胞的基因集。相比之下，许多早期研究通过直接使用基因调控网络约束网络架构来将生物学知识纳入神经网络，这种方法在选择与预测任务最相关的生物学知识子集方面灵活性较差。在本研究中，细胞根据其供体的表型进行标记，由于细胞异质性，从个体水平表型继承的一些细胞水平标签可能不准确。尽管存在这种标签噪声，SDAN仍能学习有用且具生物学意义的信息。未来的一个重要方向是扩展SDAN以明确建模或纠正噪声标签。此外，作为一种监督基因程序学习方法，SDAN侧重于与感兴趣表型相关的基因程序，不会检测在不同表型值中活动相似的基因程序。在与替代方法的比较中，所有四种方法在三个数据集上均实现了相似的分类准确性。然而，SDAN通过识别在已知基因-基因注释网络中具有强内部连接性的明确基因集，提供了卓越的解释性。因此，SDAN应主要被视为一种发现与表型相关基因程序的方法，表型预测准确性仅作为损失函数的一部分，而非唯一终点。

论文解读

研究背景

关键技术方法

研究结果

讨论与结论总结

热点排行