利用哈密顿神经流进行稳健的单细胞多组学整合以解析阿尔茨海默病进展的机制

《Frontiers in Genetics》：Leveraging Hamiltonian neural flow for robust single-cell multi-omics integration: application to Alzheimer’s disease

【字体：大中小】 时间：2026年04月24日 来源：Frontiers in Genetics 2.8

编辑推荐：

　　本文针对阿尔茨海默病（AD）中高维单细胞多组学数据整合的计算挑战，提出了一个物理启发的哈密顿图卷积网络（HGCN）框架。该研究将辛动力学与基于图的学习相结合，旨在克服传统图卷积网络（GCNs）存在的过度平滑、对数据扰动的稳定性不足以及缺乏机制可解释性等关键局限。在需要同时预测细胞类型和疾病状态的AD复合分类任务中，HGCN实现了92.28%的准确率和0.9228的F1分数，显著优于基准GCN模型。其相空间可视化揭示了抑制性神经元的异质性亚型结构，以及提示细胞类型不变性病理机制的对称几何组织。这项工作建立了一个稳健、可解释的框架，用于复杂疾病分析中的多组学整合，在精准医学中具有应用潜力。

在探索人类大脑奥秘的征途上，阿尔茨海默病（Alzheimer's disease, AD）无疑是最为复杂的谜题之一。其发病机制如同一张精密交织的网，涉及基因、表观遗传、转录组和环境等多层次的复杂互作。传统的单组学研究虽然提供了宝贵的线索，但难以捕捉AD进展背后完整的分子复杂性。随着单细胞测序技术的飞速发展，我们得以在单个细胞的分辨率下，同时剖析转录组（RNA-seq）、表观基因组（ATAC-seq）和蛋白质组，这为解析细胞异质性、重建调控网络和识别疾病相关分子特征提供了前所未有的机会。然而，如何有效整合这些高维、异质的数据模态，却成为一个根本性的计算挑战。

近年来，图神经网络（Graph Neural Networks, GNNs），特别是图卷积网络（Graph Convolutional Networks, GCNs），在生物网络这类非欧几里得拓扑结构的建模中展现了强大能力。通过将细胞表示为节点，细胞间关系表示为边，GCNs能够聚合邻居信息，学习到能捕捉局部图结构的信息性嵌入。这个框架自然地适应了多组学整合：转录组和表观组特征可以被编码为节点属性，而细胞-细胞相似性或基因-基因交互则定义了图拓扑。尽管前景广阔，但现有的基于GCN的方法在应用于复杂生物系统时，面临三个关键局限。首先，随着网络深度增加，节点表征会因重复的邻域聚合而变得越来越相似，最终收敛到难以区分的向量，这种现象被称为过度平滑。其次，GCNs对特征噪声和结构扰动都表现出高度敏感性。单细胞多组学数据本身包含由丢失事件、批次效应和测量变异性带来的技术噪声。此外，构建的细胞-细胞图可能包含虚假边或遗漏生物学相关连接。没有明确的稳定性约束，传统的GCNs会将这些误差在网络中传播，导致不可靠的预测。第三，标准的GCNs是“黑箱”模型，其决策过程不透明。在生物医学应用中，特别是对于疾病诊断和生物标志物发现，理解模型为何做出特定预测与预测准确性本身同样关键。缺乏可解释的表征限制了生物学洞察的生成，也阻碍了临床转化。

为了应对这些根本性局限，研究人员提出了哈密顿图卷积网络（Hamiltonian Graph Convolutional Network, HGCN），这是一个将哈密顿力学原理整合进基于图的深度学习中的新颖框架。该框架结合了严格的多组学预处理和物理启发的图神经网络架构，以实现稳健且可解释的疾病分析。HGCN引入了四项相互关联的创新。首先，通过哈密顿动力学施加能量守恒的传播机制，引入了几何约束，自然地防止了过度平滑，同时在深层架构中保留了判别性信息。其次，采用辛积分方案，保持了相空间的基本几何结构，确保了稳定的梯度流，并增强了对特征和结构扰动的鲁棒性。这种方法提供了传统积分方法无法提供的数值稳定性理论保证。第三，节点嵌入被分解为位置（q）和动量（p）坐标，创建了一个细胞状态沿着能量守恒轨迹演化的相空间。这个公式提供了机制可解释性：可视化揭示了细胞如何在状态间转换，以及疾病效应如何表现为相空间中的几何变换。第四，GCN组件高效地聚合来自转录组和表观组数据的多尺度特征，而哈密顿动力学则通过固定步长的辛积分，相比于纯常微分方程（ODE-based）方法降低了计算复杂度。

本研究的主要目标是使用这个物理启发的框架来模拟阿尔茨海默病相关的细胞状态动力学。该研究发表在《Frontiers in Genetics》期刊上。

主要技术方法：研究采用了系统性的流程整合数据预处理、图构建和物理启发的学习。首先实施了一个严格的预处理工作流来标准化转录组和表观组数据，其中在评估的实验设置中，通过系统性的预处理比较，差异分析成为最有效的特征提取策略。接着，基于加权最近邻距离，在整合的特征空间上使用k-最近邻（k-nearest neighbors, k-NN）构建了细胞-细胞相似性网络。核心HGCN架构将学习到的表征分解为位置（q）和动量（p）坐标，建立了一个相空间，其中细胞状态沿着由哈密顿动力学控制的能量守恒轨迹演化。采用了辛积分方案来维持相空间的基本几何结构，确保稳定的梯度传播和增强的扰动鲁棒性。模型在多个单细胞多组学数据集上进行了评估，包括一个AD前额叶皮层数据集和广泛使用的外周血基准数据集，并在引文网络基准上进行了鲁棒性实验。

研究结果

3.1 多组学整合优于单模态分析

研究首先比较了仅使用RNA-seq、仅使用ATAC-seq以及整合多组学数据在三个数据集上的分类性能。结果显示，多组学整合始终优于单模态方法。在所有三个数据集中，多组学HGCN都取得了最高的准确率和F1分数，相对于单模态模型的改进范围从4.66%（PBMC-10k数据集）到22.54%（GSE214979 AD数据集）。此外，ATAC-seq特征在细胞类型分类上比RNA-seq特征更具信息性。最重要的是，HGCN在所有模态下都持续优于基准GCN，且在更具挑战性的数据集上，HGCN相对于GCN的性能优势更为明显。

3.2 用于阿尔茨海默病分析的多任务学习

GSE214979数据集提出了一个独特挑战：同时分类细胞类型（8类）和疾病状态（2类），构成了一个16类的复合分类任务。这个多任务设置测试了模型捕捉分层生物学信息的能力。在此AD特定任务上，HGCN实现了92.28%的准确率和0.9228的F1分数，显著优于基准GCN（88.59%准确率，0.8860 F1分数）以及其他比较模型如MOGONET和scMVAE。值得注意的是，虽然所有模型在仅细胞类型分类上表现相当，但在复合任务上性能差距显著扩大，表明HGCN更有效地捕捉了疾病相关的变异。为了进一步研究AD相关分子改变如何被编码，研究分析了哈密顿相空间中的学习表征。主要的神经元和胶质细胞类型形成了良好分离的流形，反映了保留的细胞身份。相比之下，疾病状态表现为每个细胞类型流形内相干的几何位移，而不是形成孤立的疾病特异性簇。相空间可视化揭示了具有生物学意义的模式：抑制性神经元表现出碎片化、线状结构，反映了已知的转录组异质性，而疾病状态则显示出对称的几何组织，暗示了细胞类型不变的疾病效应。在引文网络基准（CiteSeer, PubMed）上进行的鲁棒性实验也证明了其对扰动的卓越韧性，其性能优势随着扰动强度的增加而增加。

结论与讨论

本研究成功开发并验证了哈密顿图卷积网络（HGCN），这是一个将哈密顿力学整合到基于图的深度学习中的新型框架，旨在解决单细胞多组学整合中的关键挑战。该框架通过引入能量守恒约束、辛积分和相空间表征，系统地解决了传统GCN存在的过度平滑、缺乏鲁棒性和可解释性不足的问题。

在多个数据集上的实验结果表明，HGCN在多组学整合任务上显著优于基准GCN模型，特别是在需要同时预测细胞类型和疾病状态的复合分类任务中表现突出。其相空间可视化不仅提供了模型决策的机制性解释，还揭示了疾病状态下细胞状态的组织模式，为理解AD的细胞类型不变性病理机制提供了新视角。鲁棒性实验进一步证实了HGCN在应对数据噪声和结构扰动方面的优越性。

这项研究的重要意义在于，它提供了一个理论严谨、计算高效的统一框架，能够同时实现稳健、可解释且有效的多组学数据整合。这对于从高维、异质的单细胞数据中提取可靠的生物学和临床见解至关重要。HGCN框架在AD分析中的应用展示了其在精准医学中的潜力，特别是在需要从复杂分子数据中识别稳健生物标志物和理解疾病机制的场景中。未来，该框架有望扩展到其他复杂疾病的多组学研究，并促进可解释人工智能在生物医学领域的更广泛应用。

热点排行