马属基因组中变异注释程序一致性与性能的综合分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Genes》：A Comprehensive Analysis of the Agreement and Performance of Variant Annotation Programs in Equine Genomes

【字体：大中小】 时间：2026年06月19日 来源：Genes 2.8

编辑推荐：

　　背景/目的：全基因组测序（WGS）技术的进步推动了WGS在家养动物遗传病和性状研究中的广泛应用。这一趋势增加了对改进候选致病变异优先级排序方法的需求。变异优先级排序的一种方式是使用变异注释器，根据变异与基因组特征的邻近关系及其对氨基酸序列的影响来预测变异效应。

背景/目的：全基因组测序（WGS）技术的进步推动了WGS在家养动物遗传病和性状研究中的广泛应用。这一趋势增加了对改进候选致病变异优先级排序方法的需求。变异优先级排序的一种方式是使用变异注释器，根据变异与基因组特征的邻近关系及其对氨基酸序列的影响来预测变异效应。然而，针对家养动物基因组的变异注释器验证仍然缺乏。方法：本研究基于1065匹马基因组中鉴定出的>5800万个变异，计算了3种常用变异注释器——Ensembl变异效应预测器（Ensembl-VEP）、SnpEff和ANNOVAR——之间的一致性。结果：比较结果显示，在术语标准化后，3种变异注释器之间的一致性均>90%。术语标准化是影响一致性的最重要因素，因为当不同变异注释器之间未进行术语标准化时，一致性下降至0–67%。基因组背景同样是主要影响因素，因为外显子变异，尤其是功能缺失（LOF）变异，较基因间区变异表现出更低的一致率。除注释一致性外，研究还识别出计算资源需求方面的差异。ANNOVAR所需内存约为次优工具的~28倍，耗时约为其次优工具的~1.5倍。结论：这些结果表明，变异注释工具的选择不应基于单一指标；相反，在选择合适的变异注释器时，应同时考虑研究需求、可用计算资源以及不同注释器之间术语的标准化。上述发现为指导家养动物中变异注释器的使用决策提供了资源，并提示了变异优先级排序标准化仍需改进的方向。

该文发表于《Genes》，围绕家养动物尤其是马属（equine）基因组中的变异注释（variant annotation）工具一致性与计算性能展开系统评估。研究背景在于，全基因组测序（WGS，whole-genome sequencing）已广泛用于遗传病与重要性状解析，但单个基因组往往包含数百万个遗传变异，如何从中准确筛选潜在致病变异仍然十分困难。变异注释器通过结合变异所在基因组位置及其对编码序列和蛋白产物的潜在影响，对变异进行功能分类与影响分级，是候选致病变异优先级排序中的关键步骤。然而，现有主流工具多数在人体数据上开发和验证，在家养动物中的适用性、工具间一致性以及资源消耗差异长期缺乏系统证据。尤其是功能缺失变异（LOF，loss-of-function）等高生物学意义变异，其注释是否稳定、不同工具是否会产生显著偏差，是开展遗传病定位与功能变异筛选时必须回答的问题。因此，研究人员开展本研究，旨在为非人类物种的注释工具选择、结果解释与流程标准化提供实证依据。

研究人员以1065匹马的WGS数据为基础，比较了3种常用变异注释程序——Ensembl变异效应预测器（Ensembl-VEP）、SnpEff与ANNOVAR——在马参考基因组EquCab3上的注释一致性，并进一步分析术语标准化、转录本选择策略、基因组区域背景以及功能缺失变异类别对一致性的影响，同时量化3种工具在运行时间和内存占用方面的差异。研究表明，在统一术语体系后，3种工具在全基因组尺度上的总体一致性较高，但在外显子区、基因区及LOF变异中一致性明显下降；此外，不同工具的优先级规则和分类逻辑会进一步放大分歧。该研究的重要意义在于，它首次在家养动物大规模数据上证明：变异注释结果不仅受算法本身影响，更显著受命名体系、注释优先级和基因组注释完整度影响；工具选择不应仅看单一准确性表征或速度指标，而需结合研究目的、输出粒度和计算资源综合判断。

在技术方法方面，研究样本来源于48个马品种及杂交群体的既往WGS数据，共1068组测序数据，经重复样本识别和低质量样本剔除后纳入1065匹马。研究人员使用WAGS流程完成比对、变异检测和联合分型，并在过滤后获得57,158,904个可注释变异。随后构建基于Snakemake的并行化流程，分别调用Ensembl-VEP、SnpEff和ANNOVAR进行注释；采用语义替换与分类归并两种方式实施术语标准化；以转录本匹配比较和最高优先级比较两种框架评估工具一致性；再按基因间区、基因区、外显子区及LOF变异分层分析，并通过重复运行各染色体注释任务统计运行时间与内存消耗，使用Kruskal–Wallis检验、Dunn事后检验及相关分析进行统计评估。

在研究结果部分，论文首先给出“3.1. Variant Annotation”。研究显示，在57,158,904个变异中，最常见的类别主要为非编码变异，包括基因间区、内含子、上游和下游变异。外显子变异仅占全部注释变异的3.4%，预测为LOF的变异占0.5%。这一结果说明，在马基因组WGS数据中，大多数变异位于非编码区域，而真正与蛋白功能改变直接相关的变异比例较低，也意味着后续功能注释的一致性分析必须特别关注少量但生物学意义更强的变异类别。

“3.2.1. Terminology Effects”部分表明，术语标准化是影响工具间一致性的首要因素。标准化前，Ensembl-VEP与SnpEff总体一致率仅为67.4%，而ANNOVAR由于使用的分类术语与其他工具几乎不重叠，与二者的一致率仅0.1%。研究人员共实施86,739,475次语义层面调整，以及4,096,533次更宽泛类别归并。标准化后，Ensembl-VEP与SnpEff一致率升至94.6%，与ANNOVAR的比较也均提升至90%以上；在进一步归并类别后，一致率增幅不足1%。这说明绝大多数分歧并非源于生物学解释本身，而主要来自命名差异；相比之下，将更精细的类别进一步合并为上位类别，对提高一致性的帮助有限。

“3.2.2. Matched-Transcript Comparison”部分采用转录本匹配策略比较注释结果。研究共进行了323,410,142次匹配转录本比较。3种工具总体一致率均超过90%，其中Ensembl-VEP与SnpEff最高，为94.7%；Ensembl-VEP与ANNOVAR为93.0%；SnpEff与ANNOVAR最低，为91.9%。值得注意的是，Ensembl-VEP参与的比较中，不完全一致多表现为“部分一致”，而SnpEff与ANNOVAR之间则更常见“完全不一致”。在影响分级（impact prediction）方面，SnpEff与Ensembl-VEP之间一致率高达99.96%，仅有极少数预测不同，且绝大多数差异发生在相邻等级之间。该结果说明，相较于具体功能分类，较宽泛的影响等级在工具间更稳定，也提示实际筛选流程若基于影响等级，受工具差异干扰可能更小。

“3.2.3. Highest-Precedence Comparison”部分从每个工具为每个变异给出的最高危害优先级注释出发进行比较。共完成171,476,712次比较。总体模式与前述结果一致：Ensembl-VEP与SnpEff一致率最高，为98.9%；Ensembl-VEP与ANNOVAR为93.9%；SnpEff与ANNOVAR为93.0%。但由于该方法只保留单一最高优先级结果，无法出现“部分一致”，因此不一致率较转录本匹配法有所增加。共有129,919个变异在3种工具中出现三方完全不同的分类，占全部变异的0.23%。这表明，当研究流程依赖工具自动选择的“最严重注释”时，工具内部优先级规则本身会显著影响最终输出。

“3.2.4. Genomic Context”部分分析了基因组背景对一致性的影响。研究识别出29,873,679个基因间区变异、28,624,713个基因区变异和1,943,682个外显子区变异。3种工具在基因间区的一致率达到100%，因为该区域仅涉及“intergenic_variant”这一单一分类；而在外显子区，特别是ANNOVAR与另外两种工具相比，一致率明显下降，Ensembl-VEP与ANNOVAR为78.8%，SnpEff与ANNOVAR为78.1%。在LOF变异中，一致性进一步降低：Ensembl-VEP与SnpEff为92.1%，而与ANNOVAR比较仅为71.4%和68.7%。这一结果说明，越是功能解释复杂、越依赖转录本结构和开放阅读框（open reading frame）定义的区域，工具间分歧越明显，而这些恰恰是研究人员最关注的候选功能变异区域。

“3.3. Identification of Discordant Classifications”部分进一步定位了导致分歧的主要分类。Ensembl-VEP与SnpEff的分歧多集中于Ensembl-VEP标注为“intron_variant”的变异，而SnpEff将其标为“downstream_gene_variant”或“upstream_gene_variant”。在Ensembl-VEP或SnpEff与ANNOVAR的比较中，大多数分歧则表现为前两者标注为“intron_variant”，而ANNOVAR标注为“non_coding_transcript_variant”。三方完全分歧的变异也基本延续这一模式。对于LOF相关类别，不同工具之间高分歧的具体类别并不相同，例如Ensembl-VEP的“start_loss”、Ensembl-VEP或SnpEff的“splicing_variant”，以及ANNOVAR的“stop_gain”“stop_loss”等均表现出较高不一致率。该部分结果提示，分歧并非随机分布，而主要集中在若干规则敏感、边界模糊或转录本定义依赖度高的类别。

“3.4. Computational Performance Comparison”部分聚焦计算性能。统计分析显示，3种工具在内存需求与运行时间上均存在显著差异。ANNOVAR内存占用最高，中位数为55,401 Mb，运行时间最长，中位数为8909 s；Ensembl-VEP内存效率最高，中位数为1029 Mb；SnpEff耗时最短，中位数为2169 s。按每10,000个变异估算，中位内存需求分别为Ensembl-VEP 4.83 Mb、SnpEff 9.90 Mb、ANNOVAR 278 Mb；中位耗时分别为SnpEff 10.6 s、Ensembl-VEP 29.5 s、ANNOVAR 39.3 s。该结果表明，在大规模WGS项目中，不同工具的资源成本差异非常显著，尤其ANNOVAR对高内存环境依赖更强，而SnpEff在处理速度方面更具优势。

讨论部分指出，本研究在非人类物种中首次系统证实：主流变异注释工具在全基因组尺度上可达到较高一致性，但这一结论建立在术语标准化前提之上。研究强调，术语差异是最主要的表面分歧来源，若不统一术语，不同研究间甚至难以开展可解释的结果比较。与此同时，外显子区和LOF变异等高功能相关区域的一致性显著降低，说明最具生物学价值的变异往往也是工具最容易产生分歧的区域。研究还指出，SnpEff与Ensembl-VEP在影响等级上的高度一致支持基于impact进行优先级筛选的策略，而ANNOVAR较多将变异归入“非编码转录本”类别，可能与其对不完整开放阅读框转录本的处理方式有关。论文同时强调，本研究评估的是工具间一致性，而非真实生物学效应预测准确性；受限于马中经实验验证功能后果的变异较少，尚无法比较这些工具预测真实效应的准确度。此外，研究仅使用Ensembl基因集，未来仍需结合更完善的转录组和功能注释信息继续评估。

研究结论部分可译为：研究发现，与人类研究结果相似，在马基因组组装与注释体系下，常用变异注释器Ensembl-VEP、SnpEff和ANNOVAR之间具有较高一致性。影响工具一致性的最重要因素是术语标准化，基因组背景同样会影响一致率，输出优先级规则也会进一步影响一致性。此外，3种变异注释器在运行时间和内存占用方面存在显著差异。综合来看，合适的工具选择不太可能仅依据注释一致性或计算性能单独决定，而应取决于多个相互作用的因素，包括预期准确性、对基因组注释质量的敏感性、所需输出粒度、与下游软件的兼容性，以及可用运行时间和内存。对于许多应用，尤其是涉及功能变异解释的场景，同时使用多个变异注释器并对输出进行标准化，可能提高注释结果的可靠性。使用变异注释程序的研究人员应明确报告所用注释工具及其版本，以确保结果的透明性、可重复性和恰当解读。

联系信箱：

粤ICP备09063491号

热点排行