MuSA：一种用于基因组变异的深度、可重复注释与临床分级的Nextflow流程工具

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《BMC Bioinformatics》：MuSA: a Nextflow pipeline for deep, reproducible annotation and clinical ranking of genomic variants

【字体：大中小】 时间：2026年06月17日 来源：BMC Bioinformatics 3.3

编辑推荐：

　　摘要背景要对遗传变异进行准确的临床解读，需要整合功能预测、进化约束、群体等位基因频率以及来自不同来源的临床证据。基于Ensembl变异效应预测器（VEP）和ANNOVAR这类独立工具的传统工作流程，需要手动配置复杂的插件和数据库，生成的转录本级输出信息过于冗长，不适合临床使用，而

摘要

背景

要对遗传变异进行准确的临床解读，需要整合功能预测、进化约束、群体等位基因频率以及来自不同来源的临床证据。基于Ensembl变异效应预测器（VEP）和ANNOVAR这类独立工具的传统工作流程，需要手动配置复杂的插件和数据库，生成的转录本级输出信息过于冗长，不适合临床使用，而且还得依靠临时编写的脚本来进行格式转换和优先级排序。这些限制影响了工作的可重复性和可扩展性，使得数据解读成为基因组医学领域的重大瓶颈。

结果

我们提出了MuSA（多源变异注释工具），这是一个符合nf-core标准的Nextflow流程，能够自动完成从资源准备到临床解读的全流程生殖系变异注释工作。MuSA既提供适用于诊断工作的简化基础模式，也具备用于全面分析的扩展深度注释模式。该流程整合了Ensembl VEP与22个精心挑选的插件（包括AlphaMissense、CADD、SpliceAI和Enformer）、ANNOVAR、预配置好的dbNSFP版本，以及RENOVO致病性预测工具，同时还通过GeneBe和InterVar实现ACMG/AMP分类的自动化处理。MuSA会对输入的VCF文件进行标准化处理，在完全容器化的流程中并行执行各种注释任务，最终将结果整合为结构丰富的突变注释格式（MAF）文件（每个变异最多可包含920列数据），同时还会生成带有HPO匹配基因列表的交互式HTML报告，方便临床人员查看。在基于公共GIAB NA12878/HG001 GRCh38基准VCF文件得到的、包含22,705个变异的WES类似数据集上进行的测试显示，MuSA在64核服务器上大约20分钟就能完成全部扩展模式下的注释工作。与nf-core/sarek和nf-core/variantprioritization工具的对比表明，MuSA独特地结合了自动化资源管理、基于YAML的版本跟踪和SHA-256完整性验证功能、原生的dbNSFP集成、基于RENOVO的非常见变异优先级排序、基于HPO的基因列表筛选功能，以及面向临床的交互式HTML报告；而这些功能在现有的nf-core注释流程中大多并不存在。通过Docker/Singularity实现的容器化技术以及预定义的执行配置，使得该工具能够在工作站、高性能计算集群和云环境中实现可重复部署。

结论

MuSA提供了一个端到端的框架，用于面向临床需求的生殖系变异注释和优先级排序，有效解决了手动操作及通用型工作流程存在的诸多问题。它的双输出设计兼顾了研究需求（可与maftools等后续工具兼容的机器可读MAF文件）和临床诊断需求（可直接用于解读的HTML报告），有助于实现不同团队之间统一且标准化的变异解读工作。目前的局限性包括仅能处理hg38染色体上的生殖系小变异，扩展模式下的存储需求较大（可达223.5GB），此外ACMG/AMP分类和基于表型特征的筛选功能还依赖于外部API。基于RENOVO的非常见变异优先级排序模块目前仍处于实验阶段，在用于临床解读之前还需要专家进行审核。

背景

要对遗传变异进行准确的临床解读，需要整合功能预测、进化约束、群体等位基因频率以及来自不同来源的临床证据。基于Ensembl变异效应预测器（VEP）和ANNOVAR这类独立工具的传统工作流程，需要手动配置复杂的插件和数据库，生成的转录本级输出信息过于冗长，不适合临床使用，而且还得依靠临时编写的脚本来进行格式转换和优先级排序。这些限制影响了工作的可重复性和可扩展性，使得数据解读成为基因组医学领域的重大瓶颈。

结果

我们提出了MuSA（多源变异注释工具），这是一个符合nf-core标准的Nextflow流程，能够自动完成从资源准备到临床解读的全流程生殖系变异注释工作。MuSA既提供适用于诊断工作的简化基础模式，也具备用于全面分析的扩展深度注释模式。该流程整合了Ensembl VEP与22个精心挑选的插件（包括AlphaMissense、CADD、SpliceAI和Enformer）、ANNOVAR、预配置好的dbNSFP版本，以及RENOVO致病性预测工具，同时还通过GeneBe和InterVar实现ACMG/AMP分类的自动化处理。MuSA会对输入的VCF文件进行标准化处理，在完全容器化的流程中并行执行各种注释任务，最终将结果整合为结构丰富的突变注释格式（MAF）文件（每个变异最多可包含920列数据），同时还会生成带有HPO匹配基因列表的交互式HTML报告，方便临床人员查看。在基于公共GIAB NA12878/HG001 GRCh38基准VCF文件得到的、包含22,705个变异的WES类似数据集上进行的测试显示，MuSA在64核服务器上大约20分钟就能完成全部扩展模式下的注释工作。与nf-core/sarek和nf-core/variantprioritization工具的对比表明，MuSA独特地结合了自动化资源管理、基于YAML的版本跟踪和SHA-256完整性验证功能、原生的dbNSFP集成、基于RENOVO的非常见变异优先级排序、基于HPO的基因列表筛选功能，以及面向临床的交互式HTML报告；而这些功能在现有的nf-core注释流程中大多并不存在。通过Docker/Singularity实现的容器化技术以及预定义的执行配置，使得该工具能够在工作站、高性能计算集群和云环境中实现可重复部署。

结论

MuSA提供了一个端到端的框架，用于面向临床需求的生殖系变异注释和优先级排序，有效解决了手动操作及通用型工作流程存在的诸多问题。它的双输出设计兼顾了研究需求（可与maftools等后续工具兼容的机器可读MAF文件）和临床诊断需求（可直接用于解读的HTML报告），有助于实现不同团队之间统一且标准化的变异解读工作。目前的局限性包括仅能处理hg38染色体上的生殖系小变异，扩展模式下的存储需求较大（可达223.5GB），此外ACMG/AMP分类和基于表型特征的筛选功能还依赖于外部API。基于RENOVO的非常见变异优先级排序模块目前仍处于实验阶段，在用于临床解读之前还需要专家进行审核。

联系信箱：

粤ICP备09063491号

摘要

背景

结果

结论

背景

结果

结论

热点排行