融合与转化：基于语言模型的群体遗传学新范式——cxt模型实现高效、通用的共祖时间推断

《Proceedings of the National Academy of Sciences》：Coalescence and translation: A language model for population genetics

【字体：大中小】 时间：2026年04月13日 来源：Proceedings of the National Academy of Sciences 9.4

编辑推荐：

　　为解决传统基于似然的群体遗传推断方法（如SMC）在模型设定局限、计算扩展性不足、难以处理复杂进化场景等问题，研究人员开展了“共祖与转化”主题研究，提出cxt模型——一种基于解码器Transformer的语言模型，通过“下一次共祖预测”任务，将突变模式转化为共祖时间。该模型在stdpopsim模拟训练中学习隐式先验，能够快速生成百万级共祖时间估计，并在人类和蚊子基因组数据中验证了其准确性与稳健性，为大规模、跨物种的群体遗传推断提供了高效、可推广的新工具。

在我们每个人的基因组中，都隐藏着一部波澜壮阔的家族史。这部历史由一代代祖先的繁衍、迁徙、乃至环境的挑战共同书写，其核心记录是一种名为“祖先重组图（Ancestral Recombination Graph, ARG）”的复杂结构。ARG描绘了所有现存个体DNA序列如何通过“共祖”（coalescence， lineages合并）和“重组”（recombination， lineages分开）事件，追溯到历史上共同的祖先。然而，ARG本身无法直接观测，我们只能通过现代人基因组上零星分布的突变模式，像解读残缺的密码一样，间接地推测其拓扑结构和事件发生的时间。

长久以来，以“连续马尔可夫共祖模型（sequentially Markovian coalescent, SMC）”为代表的概率模型，为推断群体历史（如人口规模变化、分化时间）和共祖关系提供了强大框架。但这些方法本质上是“特化”的：它们依赖于预先设定的模型假设，难以扩展到包含种群结构、自然选择等复杂进化过程的场景，并且计算成本高昂。近年来，随着模拟数据和深度学习技术的进步，一种新的思路应运而生：能否让模型直接从海量的模拟遗传数据中学习，从而绕过复杂的解析似然推导，直接推断隐藏的进化过程？

这正是发表在《Proceedings of the National Academy of Sciences》上的研究“Coalescence and translation: A language model for population genetics”所要回答的核心问题。研究者们将共祖时间的推断，重新定义为一个“翻译”问题：即将基因组上可观测的、稀疏的突变模式（一种“语言”），翻译成不可观测的、产生这些模式的ARG（另一种“语言”）。受大语言模型的启发，他们开发了名为cxt的解码器-仅（decoder-only）Transformer模型。该模型以一种自回归（autoregressive）的方式，根据局部的突变上下文，条件性地预测下一个共祖事件发生的时间，他们称之为“下一次共祖预测（next-coalescence prediction）”。

为了开展这项研究，作者主要采用了以下关键技术方法：1. 基于模拟的训练策略：利用stdpopsim（一个标准群体遗传模拟目录）生成了跨越多种物种、人口历史和遗传图谱的海量合成基因组数据，作为模型的训练集，使模型从中学习共祖过程的隐式先验。2. 解码器Transformer架构：采用类似GPT-2的Transformer架构，但将文本嵌入层替换为前馈网络，直接将连续的、由位点频谱（Site Frequency Spectrum, SFS）加权的突变密度特征映射到隐空间。使用旋转位置编码（rotary positional embeddings）来捕获基因组上的物理距离信息。3. 下一次共祖预测任务：模型以固定窗口（如2 kb）沿基因组滑动，将共祖时间离散化为对数尺度上的区间，以前面窗口的预测共祖时间和当前窗口的突变上下文为条件，预测当前窗口的共祖时间分布，通过最大化真实序列的对数概率进行训练。4. 后验采样与校准：模型的生成式特性允许对每个窗口的共祖时间分布进行快速多次采样，从而得到近似的后验分布，用于不确定性量化。并通过一个简单的后处理校准步骤，使预测的多样性与物种突变率对齐。5. 实证数据应用与适配：将训练好的模型应用于1000基因组计划的人类数据和Ag1000G联盟的蚊子数据。针对蚊子数据大有效群体大小（N_e）、小样本量和大量数据缺失的挑战，采用了在相关模拟上微调（fine-tuning）模型、减小窗口尺寸、并训练轻量级“适配器（adapter）”来处理小样本量的方法。

研究结果

快速而准确的推断

cxt模型能够在单个NVIDIA A100 GPU上，在约五分钟内并行推断出50条单倍型染色体所有可能的配对（共1225对）的共祖时间轨迹，并生成近似的后验样本。在恒定人口大小的模拟场景中，cxt表现出高精度，预测的共祖时间均值与真实值紧密吻合。

基准比较

研究者将cxt与当前先进的快速推断方法Singer（结合其精确定年算法Polegon）和SMC++进行了比较。在训练分布内的恒定人口场景下，cxt-narrow（窄模型）与Singer+Polegon表现相当，均优于SMC++。当模型设定错误（如在“锯齿状”波动人口历史下测试窄模型）时，cxt性能下降，但通过在不同场景上训练的cxt-broad（宽模型）可以有效缓解，并在“锯齿状”场景中取得更好精度。总体而言，cxt在多数设定下与Singer+Polegon竞争力相当，且显著优于SMC++的解码结果。

迈向可推广的深度学习模型

cxt-broad模型在几乎整个stdpopsim v0.2物种目录上进行训练，并在未参与训练的新物种（来自stdpopsim v0.3）上进行测试，评估其泛化能力。模型在多数新物种上依然能较好地推断出共祖时间的边际分布，尽管Singer+Polegon在某些场景下误差更低。这表明cxt能够在一定程度上泛化到训练时未见过的突变率、重组率和人口统计结构组合。

从共祖率估计人口历史

通过将cxt推断的成对共祖时间分布转化为瞬时共祖率，进而可以估计历史有效群体大小N_e(t)的变化轨迹。在人类、拟南芥和牛的模拟数据中，cxt和Singer推断的人口历史曲线能够捕捉到主要的增长/瓶颈时期，与真实轨迹接近，而SMC++在近期时间偏差较大。

应用于人类1000基因组和Ag1000G蚊子数据

•
人类数据验证：cxt成功复现了人类基因组中两个经典的选择信号区域。在染色体2的乳糖酶（LCT）基因区域，cxt推断出近期强烈的定向选择导致的共祖时间显著低谷（约1万年以下）。在染色体6的主要组织相容性复合体（HLA）区域，cxt则推断出由长期平衡选择维持的异常古老的共祖时间（超过1000万年），这与该区域存在跨物种多态性的认知一致。
•
蚊子数据探索：将cxt应用于冈比亚按蚊的Ag1000G数据，聚焦于含有杀虫剂抗性位点的2L染色体。cxt清晰地探测到位于Rdl基因附近的近期选择性清除信号，其共祖时间低谷的深度在抗性等位基因频率高的西非种群（如加纳）中更明显，而在没有抗性的东非乌干达种群中则不显著，这与已知的抗性地理分布吻合。此外，cxt揭示了2L染色体上一个古老倒位In(2L)a内部的共祖时间普遍高于外部背景，尤其是在倒位断点附近，这与该倒位因重组抑制而被长期维持的预期一致。cxt在应对蚊子数据的大N_e、高缺失率等挑战时表现稳健，而Singer+Polegon在数据缺失区域则会出现共祖时间假性低谷的估计伪影。

研究结论与重要意义

本研究成功地将群体遗传推断构建为一个语言建模问题，开创性地提出了cxt模型。该模型通过学习“下一次共祖预测”这一条件随机过程，绕过了传统方法对解析似然和严格模型假设的依赖，直接从模拟数据中吸收先验知识。

其核心结论在于：cxt提供了一种高效、准确且具有一定泛化能力的成对共祖时间推断新工具。它在精度上可与最先进的基于ARG的MCMC方法（Singer）竞争，并显著优于广泛使用的SMC++方法，同时得益于GPU并行计算，其推断速度极快，能够进行大规模、染色体尺度的分析。更重要的是，cxt框架展现出良好的灵活性和可扩展性。通过在不同进化场景的模拟数据上进行预训练，并结合针对特定数据特点（如小样本、高缺失率）的轻量级微调，模型能够快速适应新的、具有挑战性的实证数据环境，例如有效群体巨大、数据质量复杂的蚊子基因组。

这项工作的重要意义在于，它为实现“可推广的”群体遗传推断提供了可行的技术路径。随着stdpopsim等标准模拟目录的不断扩展，cxt所代表的模拟-学习范式可以持续纳入新的物种和进化模型，从而形成一个不断进化的推断引擎。这为在日益增长的海量基因组数据中，高效、稳健地揭示物种的群体历史、自然选择作用以及复杂的进化动力学，提供了一个强大而实用的新选择。

热点排行