综述:气候极端事件、基因组覆盖范围及分类学对适应性检测的影响:针对动物界(Animalia)的基因组适应性(GEA)研究的系统综述
《Molecular Ecology》:Climate Extremes, Genomic Coverage, and Taxonomy Shape the Detection of Adaptation: A Systematic Review of GEA Studies for the Kingdom Animalia
【字体:
大
中
小
】
时间:2026年03月27日
来源:Molecular Ecology 3.9
编辑推荐:
**摘要**
基因型-环境关联(GEA)被广泛用于识别与环境压力相关的遗传变异。过去十年中,这类研究的增加为我们提供了一个关键机会,以综合了解适应性变异是如何在广泛的分类群中被识别和分布的。在这里,我们回顾了来自动物界的194项GEA研究,总结了所采用的分析方法以及适应性变异的
**摘要**
基因型-环境关联(GEA)被广泛用于识别与环境压力相关的遗传变异。过去十年中,这类研究的增加为我们提供了一个关键机会,以综合了解适应性变异是如何在广泛的分类群中被识别和分布的。在这里,我们回顾了来自动物界的194项GEA研究,总结了所采用的分析方法以及适应性变异的关键预测因子。我们的回顾显示,潜在因子混合模型(LFMM)和冗余分析(RDA)是最常用的方法,大多数研究采用了多种分析方法。平均而言,这些研究仅采样了目标物种基因组的约0.05%(标准差=0.14%)。在使用基因组代表性标记的研究中,我们发现基因组覆盖度与检测到的候选位点之间存在非线性关系,这表明超过0.45%的基因组覆盖度后,收益会逐渐减少,从而支持了数据集大小之外因素的重要性。反映极端情况和变化的气候变量在检测候选位点方面最为一致,但这些模式在不同分类群中差异很大。我们还确定了骨骼鱼类、节肢动物、哺乳动物、鸟类、爬行动物和软体动物中具有影响力的特定分类群环境关系,并强调了影响未来研究工作的关键变量。这一综合研究证实了适应性变异与物种生态之间的紧密联系,为未来的研究设计提供了定量指导,以提高统计检测能力,并优先考虑塑造进化的环境驱动因素。
**1 引言**
使用基因组数据评估适应性变异是现代进化生物学的基石(Hoban等人,2016年)。识别适应性变异的方法包括全基因组关联研究(GWAS,例如PLINK和GEMMA)、异常值测试(例如Bayescan、Arlequin和PCAdapt)以及基因型-环境关联(GEA)分析(Forester、Lasky等人,2018年;Lasky等人,2023年;Lotterhos和Whitlock,2014年)。GWAS和异常值测试通过识别遗传变异与表型特征之间的统计关联或标记出具有异常高遗传分化模式的位点来识别可能受到选择的位点。相比之下,GEA分析直接评估遗传变异与环境梯度之间的关系,提供了关于可能塑造适应性空间模式的选择压力的见解(Forester、Landguth等人,2018年)。在这种情况下,GEA模式揭示了物种生物学的基本方面,以及景观水平的过程,如基因流、环境梯度上的种群持续性和局部适应潜力(Flanagan等人,2018年)。这些信息也可用于应用管理和保护,特别是在面对栖息地破碎化、生物多样性丧失和气候变化等日益增加的环境压力时(Forester等人,2025年;Forester、Landguth等人,2018年;Razgour等人,2018年)。由于这些应用,GEA分析已成为理解环境梯度上适应性变异的最常见景观遗传学方法(Balkenhol等人,2017年;Forester、Landguth等人,2018年;Rellstab等人,2015年)。尽管GEA方法变得越来越普遍,但仍然存在许多方法学上的不确定性。例如,校正种群结构可能会降低检测真实适应性信号的能力,而忽略结构则可能导致异常值的错误识别(Forester、Lasky等人,2018年;Rellstab等人,2015年)。此外,估计需要多少基因组覆盖度才能可靠地检测到适应性位点可能具有挑战性,这可能会对潜在的假阴性结果产生不确定性。此外,如果选择的环境预测因子与物种生态不符,研究可能无法检测到适应性位点(Hoban等人,2016年)。这些不确定性导致了关于未能找到适应性位点的研究是真正的阴性结果还是由于标记和环境预测因子的选择不足而导致的不确定性。这个快速增长的研究领域以及这些持续的不确定性促使我们进行了系统的GEA研究回顾。我们有意将这一目标限制在动物界,排除了其他界(古菌、细菌、原生生物、真菌和植物)。尽管GEA方法很早就被开发出来,并已在植物等其他系统中得到广泛应用,但我们的目标是综合评估这些方法是如何被特定地应用于动物系统的,因为在动物系统中,高移动性、广泛或变化的栖息地范围以及复杂的人口历史等生物学特征可能会使基因型-环境关联变得复杂。我们的第一个目标是回顾用于进行GEA分析的方法,以描述当前的文献并突出识别候选位点的有效方法。为此,我们收集了关于所使用的方法、所做的建模选择(例如,结构校正)、标记来源和跨研究的基因组覆盖度的数据。其次,我们旨在总结GEA研究的发现,如使用的显著环境预测因子、检测到的异常值数量以及研究的分类群。我们还通过多种方式对预测变量进行了分类,并比较了它们在不同分类群中的关系,以识别特定分类群的趋势。通过检查GEA分析的应用方式及其发现如何在不同分类群中变化,我们识别了方法学选择、环境预测因子和适应性遗传变异检测方面的更广泛模式。这些模式提供了关于塑造局部适应的进化过程以及将GEA应用于实际保护挑战所涉及的实际考虑的见解。最终,这项回顾强调了GEA分析的进行方式,识别了影响局部适应的环境因素,并概述了未来研究如何基于当前趋势更好地理解和保护变化环境中的生物多样性。
**2 材料与方法**
这项系统回顾基于系统回顾和荟萃分析的优先报告项目(PRISMA;Page等人,2021年,见文件S1中的PRISMA流程图和检查表)。
**2.1 数据来源和搜索策略**
我们的文献搜索包括两个主要数据库:Web of Science Core Collection(WoS)和Google Scholar。为了确保研究的相关性,我们使用了搜索短语:“genotype–environment association*”。这个狭窄的短语适当地捕获了野生动物基因型-环境关联(GEA)研究,同时避免了大量的人类研究(例如,基因型-环境交互作用研究)。然而,依赖这种严格的术语可能会排除使用其他表述的研究(例如,“genetic–environment association”),因此一些相关研究可能没有被包括在内。
**2.2 研究选择、资格标准和质量评估**
我们考虑了截至2025年1月以英语发表的研究。符合条件的研究是针对动物界非人类物种进行GEA的主要研究(包括同行评审的出版物、预印本、论文和学位论文)。我们排除了关于非动物界物种、人类受试者、非英语文本、非GEA分析以及仅专注于方法开发的研究。PRISMA流程图说明了研究选择过程(文件S1)。两位审稿人(A.K.W.和O.M.R.)独立地筛选了标题、摘要和全文,并根据预定义的表格(文件S2)系统地从每项符合条件的研究中提取相关信息。关于研究资格的争议,例如方法细节不足的“边缘”研究,通过审稿人之间的共识解决了。这确保了对所有筛选研究的一致和透明的纳入标准应用。
**2.3 统计量和综合**
**2.3.1 目标1:回顾GEA分析中使用的方法**
我们使用R(版本4.4.2;R Core Team 2024)和RStudio(版本2024.12.0;RStudio Team 2024)以及tidyverse包(Wickham等人,2019)来过滤、排序和可视化结果。虽然一项研究中的多个分析通常针对相同的分类群或种群进行,但每个GEA分析都被视为一个独立的观察。对于每个分析,我们记录了GEA方法、标记来源和数量、使用的遗传(例如,潜在因子和协方差矩阵)和/或地理结构(例如,坐标或包含Moran特征向量图作为变量)校正、检测到的异常值数量、使用的多种方法和共享位点、降维和验证方法。为了指导未来的研究设计,我们检查了基因组采样努力与跨研究检测到的假定适应性位点之间的关系。基因组采样努力被量化为基因组覆盖度,计算方法是从报告的标记数量除以目标物种或密切相关的分类群的已发布基因组大小估计值(见文件S2中的基因组大小来源)。对于这项分析,我们排除了使用非代表性(即靶向)和转录组标记来源的研究(文件S3)。然后,我们通过拟合线性和非线性模型来评估检测到的异常值数量随基因组覆盖度增加的变化情况。模型拟合使用似然比测试和Akaike信息准则进行比较。这些模型总结了异常值检测的经验模式,并不旨在估计真实的适应性位点数量。
**2.3.2 目标2:GEA分析中保留的环境预测因子和分类群覆盖度总结**
我们记录了每个GEA分析中保留的所有环境变量、包含它们的理由,以及当报告时与每个变量显著相关的候选位点数量。然后,我们在三个嵌套尺度上对每个变量进行了分类:(1)最细的尺度(单个变量的最细比较分类),(2)变量类型(例如,温度和降水量),以及(3)测量类型(例如,平均值、极端值和原始值)。为了量化不同变量类别的有效性,我们计算了“SNP检测率”,即与该分析中使用的SNP总数相关的候选异常值SNP的数量。为了比较和可视化,我们绘制了每个变量类别的整体对数缩放平均SNP检测率和95%置信区间。为了探索特定分类群的趋势,我们记录了每项研究的物种、顺序和更广泛的分类学分类,并计算了每个组的SNP检测率。我们可视化了对数缩放的中位检测率及其分布,排除了任何观察次数少于10次的分类群和变量-分类组合少于五次的组合,并描述性地总结了这些模式。
**3 结果**
**3.1 文献搜索和研究选择**
初步搜索从Google Scholar获得了877个结果,从WoS获得了207个结果(文件S1)。经过两轮迭代过滤(首先通过标题和摘要,然后通过全文),排除了889个结果,原因如下:重复(n=121)、未进行GEA(n=113)、格式不可访问(例如,非英语文本;n=129)、人类研究(n=24)、研究对象不在动物界(n=417)、专注于方法开发而非推断(n=71)以及报告不完整(n=15)。报告不完整的研究包括信息缺失过多的研究。最终,我们保留了194项研究进行系统回顾(文件S2)。
**3.2 GEA文献中的方法学趋势**
本回顾中的大多数GEA研究发表于2022年至2025年之间(图1a)。在194项独立研究中,进行了343项GEA分析,平均每项研究使用了1.77项GEA分析。最常见的响应变量是种群水平的等位基因频率和个体基因型。大多数研究使用了某种类型的降维测序(67%),其次是全基因组鸟枪法(23%)。靶向(7%)和转录组/宏基因组方法(2%)则较为少见。分析平均包含1,072,683个SNP(标准差=4,431,838),对应的平均基因组覆盖度(即标记密度/基因组大小)为0.05%(标准差=0.14%)(图1b,红线)。平均每项研究识别出1,977个SNP作为异常值,其中657个(标准差=2,559个)在多个GEA方法中反复被识别。图1(在图查看器中打开):(a) 随时间变化的出版物直方图(*本系统回顾仅包括截至2025年的出版物)。(b) 散点图显示了每项研究的基因组覆盖度与每个GEA分析检测到的候选异常值之间的关系。实线蓝色和阴影表示二次负二项模型的平均值和95%置信区间。0.45%处的蓝色虚线垂直线表示斜率为零的位置,即随着基因组覆盖度的增加,候选异常值检测开始减少。0.05%处的红色垂直线表示分析的平均基因组覆盖度。(c) 条形图显示了使用的GEA方法的频率。(d) 条形图显示了在广泛分类群上的GEA研究频率。LFMM,潜在因子混合模型;pRDA,部分冗余分析;RDA,冗余分析。我们观察到基因组覆盖度与检测到的异常值数量之间存在非线性关系,这种关系用二次负二项模型比线性模型更好地描述(p<0.001;图1b;文件S3)。拟合模型表明,在低基因组覆盖度时,检测到的异常值数量迅速增加,在大约0.45%时达到平台期(图1b,红线)。在此平台期之后,模型预测异常值检测数量下降(文件S3)。考虑种群结构的模型(n=158;LFMM、BayPass、Bayenv/Bayenv2、BayeScEnv)和基于排序的多元方法(n=156;RDA和pRDA)主导了GEA方法(图1c,文件S2;Caye等人,2019;Frichot等人,2013)。较少见的方法包括机器学习、空间自相关框架和回归模型。在分析中,56%考虑了种群结构,22%考虑了地理结构,9%同时考虑了两者,30%没有进行任何校正(文件S3)。遗传结构的解释最常通过在考虑群体结构的方法(如LFMM和BayPass)中加入潜在因子或协方差矩阵来实现(文件S2)。在基于排序的方法中,作者们经常使用来自主成分分析、混合分析或聚类分析的条件变量。空间结构的校正最常通过使用Moran特征向量图得出的变量或直接将坐标作为变量来进行。当没有明确校正结构时,大多数分析并没有提供理由;当给出解释时,作者们最常提到使用了多种互补方法、对过度校正的担忧、推断出的结构较低、方法对结构的稳健性、考虑了结构的抽样设计,或者假设空间校正能够捕捉到遗传结构(文件S2)。我们没有发现基于是否应用校正的SNP检测率有任何差异(文件S3)。几乎所有(96%)的研究都报告了对异常位点的某种形式的验证。验证方法最常见的是统计方法(88%)、多种GEA方法之间的交叉方法一致性(69%)以及对候选位点的功能注释(65%)。大多数研究至少使用了两种验证方法(80%),接近一半(46%)的研究应用了所有三种验证策略。
3.3 候选位点的分类覆盖度和环境预测因子
我们的回顾发现,GEA研究主要集中在几个主要的分类群中:硬骨鱼类、节肢动物、哺乳动物、鸟类、爬行动物和软体动物(图1d,文件S2)。75%的研究提供了变量选择的理由,最常见的是生物学或机制上的解释(69%),其次是探索性理由(4%)和基于文献的理由(2%)。18%的研究使用了主成分分析进行维度缩减,最常见的是在考虑结构的方法中,如LFMM(63%),其次是基于排序的方法(34%)(文件S2)。由于并非所有分类群在每个变量类别中的代表性都相同,因此变量之间的SNP检测率关系是描述性的,而不是通过统计测试得出的(有关变量分类的更多细节,请参见文件S2)。我们将SNP检测率分类为高,当某个分类群的中位数超过整体四分位数范围时;中等,当它位于范围内时;低,当它低于范围时。与其它变量类别相比,生产力变量的检测率更高(图2b)。测量极端值或变异性的变量与较高的SNP检测率相关(图2c)。
(a–c)三组箱形图显示了不同变量类别和广泛分类群中SNP检测率的对数刻度中位数(中间线)、内部50%四分位数(箱子)以及数据的一般分布(须)。(a) 显示了最细粒度的变量分组,其中温度和降水等变量被分为平均值、极端值和变异变量;(b) 显示了按计算类型的关系;(c) 显示了按变量类型的关系(更多细节请参见文件S2)。为了防止样本量小的问题,我们过滤掉了分析次数少于10次的分类群和观测次数少于五个的变量-分类群组合。cond. = 条件;ext. = 极端;hab. = 栖息地;precip. = 降水;prod. = 生产力;qu. = 季度;temp. = 温度;var. = 变异。节肢动物在地点和平均值变量上的检测率较高,在温度、变异和原始(即未汇总的)变量上的检测率中等,在降水和极端变量上的检测率较低(图2b,c)。鸟类在温度、平均值和极端变量上的检测率较高,在降水、地点、变异和原始变量上的检测率中等。硬骨鱼类在温度、水条件和平均值变量上的检测率较高,在生产力和变异上的检测率中等,在降水、地点、极端和原始变量上的检测率较低。哺乳动物在降水和原始变量上的检测率较高,在温度、地点、平均值、极端和变异变量上的检测率中等,在水条件上的检测率较低。软体动物在温度、地点、极端和原始变量上的检测率较高,在水条件、生产力和平均值变量上的检测率中等。爬行动物在极端值上的检测率较高,在降水、地点、变异和原始变量上的检测率中等,在温度、平均值和变异变量上的检测率较低。
4 讨论
GEA研究领域迅速发展,2022年至2025年间出版物数量激增,这得益于大型基因组数据集的日益可用。我们对近200项研究的系统回顾提供了这一增长学科的定量快照。我们发现,尽管RDA是最常见的方法,但几乎一半的研究采用了多种方法来识别候选位点。使用二次负二项模型,我们发现基因组覆盖度与检测到的异常位点数量之间存在非线性关系,在低覆盖度时检测率增长迅速,然后在0.45%时达到平台期,之后趋势变为负值。在所有分类群中,我们发现气候变量,特别是那些测量极端值和变异性的变量,是适应性的强大预测因子。此外,我们确定了环境与适应性变异之间的特定分类群关系,这证实了环境预测因子的选择强烈影响了GEA分析的结果。
4.1 方法学意义
成功的GEA研究所需的基因组覆盖度取决于许多复杂且相互竞争的因素,包括研究问题、物种生物学、抽样设计和SNP的起源(Forester, Lasky等人,2018)。观察到的基因组覆盖度与检测到的异常值之间的关系存在显著差异,这反映了这种复杂性。尽管如此,二次模型表明,基因组覆盖度的增加并不一定转化为异常值检测的持续提升,反而显示在较高水平的基因组采样时可能会产生收益递减。因此,试图识别适应性信号的研究应该平衡标记密度与其他考虑因素,如样本的数量和空间分布、环境异质性以及适应性特征的基因组结构(Flanagan等人,2018;Forester, Lasky等人,2018;Hoban等人,2016)。例如,空间采样稀疏的研究可能需要更多的标记才能达到与环境对比强烈的研究相同的检测能力(De Mita等人,2013;Lotterhos和Whitlock,2014;Rellstab等人,2015)。因此,基因组覆盖模式应该用于指导研究设计,而不是决定研究设计。由于将校正纳入异常值检测的有效性取决于系统、抽样设计和建模框架,因此无法直接评估校正的充分性(Hoban等人,2016)。文献中关于校正是否充分减少了假阳性或过度校正(从而阻止了适应性位点的检测)存在一些争议(Forester, Lasky等人,2018;Hoban等人,2016;Rellstab等人,2015)。许多研究引用了对过度校正的担忧作为不校正结构的原因。有趣的是,我们没有观察到结构校正(遗传或空间校正)导致SNP检测率降低,这表明能力损失可能不是普遍现象。我们同意之前的建议,即研究人员应该探索有无校正的模型,特别是在具有复杂人口历史的系统中(Forester, Lasky等人,2018;Rellstab等人,2015)。由于RDA已被证明是一种稳健且广泛采用的方法,其I型错误率相对较低,因此继续将其作为主要分析工具是得到充分支持的(Capblancq和Forester,2021)。
4.2 分类群中适应性变异的环境驱动因素
我们一致发现,气候变量,特别是极端值和变异性的测量,与假定的适应性位点的检测有很强的关联。随着气候变化导致极端天气事件更加频繁(Easterling等人,2000;Thornton等人,2014),这表明许多野生动物种群将面临加剧的选择压力。我们的回顾还强调了GEA文献中的显著分类群偏见;然而,这些模式应谨慎解释,因为一些分类群由多项研究代表,并不完全独立。生态敏感的群体,包括爬行动物和软体动物,明显被低估了。例如,尽管它们被认为是生态系统健康的指标(Dietl等人,2016;Michael等人,2018;Pruden等人,2021;Welsh和Droege,2001;Welsh和Ollivier,1998),但软体动物和爬行动物分别只有15项和23项研究关注(Geist,2010)。我们建议未来的研究优先考虑这些研究不足的分类群,因为它们对于理解生态系统健康至关重要,并且可能特别容易受到环境变化的影响。最后,我们确认适应性的驱动因素具有高度的分类群特异性。尽管节肢动物的生物量与许多环境中的降水极端值和极端天气事件有很强的关联(Fischer等人,2022;Newell等人,2023;Wise和Lensing,2019),但它们与降水和极端值的关系较弱。这表明这些条件不是选择性的,而长期平均值和栖息地条件可能对适应性反应更为相关。鸟类在温度、平均值和极端变量上的检测率较高,它们与温度的强关联与鸟类生理学和纬度温度梯度的已知联系一致(Cossins和Bowler,1987;McPherson等人,2025)。硬骨鱼类在温度、水条件和平均值变量上的检测率较高,在生产力和变异上的检测率中等,在降水、地点、极端和原始变量上的检测率较低。哺乳动物在降水和原始变量上的检测率较高,在温度、地点、平均值、极端和变异变量上的检测率中等,在水条件上的检测率较低。软体动物在温度、地点、极端和原始变量上的检测率较高,在水条件、生产力和平均值变量上的检测率中等。爬行动物在极端值上的检测率较高,在降水、地点、变异和原始变量上的检测率中等。
4.3 局限性和建议
我们的综合分析受到所审查文献中报告不一致性的限制。关键细节,如基因组覆盖度、每个变量检测到的候选位点数量和方法学理由(例如,结构校正)经常缺失,这限制了我们得出更细致结论的能力。此外,虽然我们对使用的方法进行了分类,但我们没有记录样本大小、设计或记录的遗传或空间结构的细节(尽管Rellstab等人,2015对此进行了回顾)。我们还无法测试不同研究中候选位点的有效性,未来的研究将通过在GEA研究中纳入验证方法的信息来大大受益。对异常值统计的更定量元分析,包括跨方法的分数或p值分布以及分析校正的效果,也可以提供关于候选位点稳健性和可转移性的更深入见解。这样的工作代表了未来研究的一个重要方向,超出了本迷你回顾的范围。尽管存在这些限制,这项研究仍提供了当前GEA研究状态的简要而集中的概述。
5 结论
本回顾综合了十年来快速发展的GEA研究,揭示了方法学的关键趋势,并展示了动物分类群中适应性的主要驱动因素。基因组覆盖度与异常值检测之间的非线性关系表明,仅标记密度可能无法保证改进的推断,这强调了在环境梯度上考虑周到的空间设计、方法学选择和环境变量选择的重要性。在不同分类群中,环境驱动的适应性变异具有高度变异性。气候变量及其测量的重要性经常与候选位点相关,但差异很大,在某些系统中似乎更多地表现为人口统计限制,而不是一致的选择压力。这些发现强调,GEA的结果受到生物体生物学和适应能力的强烈影响,支持使用生物学上合理的预测因子选择和计算。为了推动该领域的发展,标准化报告对于确保透明度和促进未来的元分析至关重要。通过提高报告标准、使用考虑功效的设计以及使预测因子与生物体生态学对齐,GEA研究可以提供更强的生物学见解,并为快速变化的世界中的保护和管理提供清晰、更可靠的指导。
作者贡献
A.K.W.和O.M.R.构思并设计了这项研究。所有作者共同开发了方法论。A.K.W.和O.M.R.进行了正式分析并整理了数据,A.K.W.准备了可视化内容。A.K.W.和O.M.R.起草了手稿,所有作者都参与了审阅和编辑工作。
致谢
感谢Seun Oladipupo博士在研究进展过程中的指导和支持。感谢审稿人的评论,这些评论极大地改进了这项研究。人工智能辅助工具仅用于改进语法和简洁性;所有科学内容仍由作者负责。
资金
作者没有需要报告的利益冲突。
数据可用性声明
所有用于重现这些结果的文件都在支持信息中提供。有关这些文件的描述,请参见支持信息。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号