
-
生物通官微
陪你抓住生命科技
跳动的脉搏
MuSA:一种用于基因组变异的深度、可重复注释与临床分级的Nextflow流程工具
《BMC Bioinformatics》:MuSA: a Nextflow pipeline for deep, reproducible annotation and clinical ranking of genomic variants
【字体: 大 中 小 】 时间:2026年06月17日 来源:BMC Bioinformatics 3.3
编辑推荐:
摘要背景要对遗传变异进行准确的临床解读,需要整合功能预测、进化约束、群体等位基因频率以及来自不同来源的临床证据。基于Ensembl变异效应预测器(VEP)和ANNOVAR这类独立工具的传统工作流程,需要手动配置复杂的插件和数据库,生成的转录本级输出信息过于冗长,不适合临床使用,而
要对遗传变异进行准确的临床解读,需要整合功能预测、进化约束、群体等位基因频率以及来自不同来源的临床证据。基于Ensembl变异效应预测器(VEP)和ANNOVAR这类独立工具的传统工作流程,需要手动配置复杂的插件和数据库,生成的转录本级输出信息过于冗长,不适合临床使用,而且还得依靠临时编写的脚本来进行格式转换和优先级排序。这些限制影响了工作的可重复性和可扩展性,使得数据解读成为基因组医学领域的重大瓶颈。
我们提出了MuSA(多源变异注释工具),这是一个符合nf-core标准的Nextflow流程,能够自动完成从资源准备到临床解读的全流程生殖系变异注释工作。MuSA既提供适用于诊断工作的简化基础模式,也具备用于全面分析的扩展深度注释模式。该流程整合了Ensembl VEP与22个精心挑选的插件(包括AlphaMissense、CADD、SpliceAI和Enformer)、ANNOVAR、预配置好的dbNSFP版本,以及RENOVO致病性预测工具,同时还通过GeneBe和InterVar实现ACMG/AMP分类的自动化处理。MuSA会对输入的VCF文件进行标准化处理,在完全容器化的流程中并行执行各种注释任务,最终将结果整合为结构丰富的突变注释格式(MAF)文件(每个变异最多可包含920列数据),同时还会生成带有HPO匹配基因列表的交互式HTML报告,方便临床人员查看。在基于公共GIAB NA12878/HG001 GRCh38基准VCF文件得到的、包含22,705个变异的WES类似数据集上进行的测试显示,MuSA在64核服务器上大约20分钟就能完成全部扩展模式下的注释工作。与nf-core/sarek和nf-core/variantprioritization工具的对比表明,MuSA独特地结合了自动化资源管理、基于YAML的版本跟踪和SHA-256完整性验证功能、原生的dbNSFP集成、基于RENOVO的非常见变异优先级排序、基于HPO的基因列表筛选功能,以及面向临床的交互式HTML报告;而这些功能在现有的nf-core注释流程中大多并不存在。通过Docker/Singularity实现的容器化技术以及预定义的执行配置,使得该工具能够在工作站、高性能计算集群和云环境中实现可重复部署。
MuSA提供了一个端到端的框架,用于面向临床需求的生殖系变异注释和优先级排序,有效解决了手动操作及通用型工作流程存在的诸多问题。它的双输出设计兼顾了研究需求(可与maftools等后续工具兼容的机器可读MAF文件)和临床诊断需求(可直接用于解读的HTML报告),有助于实现不同团队之间统一且标准化的变异解读工作。目前的局限性包括仅能处理hg38染色体上的生殖系小变异,扩展模式下的存储需求较大(可达223.5GB),此外ACMG/AMP分类和基于表型特征的筛选功能还依赖于外部API。基于RENOVO的非常见变异优先级排序模块目前仍处于实验阶段,在用于临床解读之前还需要专家进行审核。
要对遗传变异进行准确的临床解读,需要整合功能预测、进化约束、群体等位基因频率以及来自不同来源的临床证据。基于Ensembl变异效应预测器(VEP)和ANNOVAR这类独立工具的传统工作流程,需要手动配置复杂的插件和数据库,生成的转录本级输出信息过于冗长,不适合临床使用,而且还得依靠临时编写的脚本来进行格式转换和优先级排序。这些限制影响了工作的可重复性和可扩展性,使得数据解读成为基因组医学领域的重大瓶颈。
我们提出了MuSA(多源变异注释工具),这是一个符合nf-core标准的Nextflow流程,能够自动完成从资源准备到临床解读的全流程生殖系变异注释工作。MuSA既提供适用于诊断工作的简化基础模式,也具备用于全面分析的扩展深度注释模式。该流程整合了Ensembl VEP与22个精心挑选的插件(包括AlphaMissense、CADD、SpliceAI和Enformer)、ANNOVAR、预配置好的dbNSFP版本,以及RENOVO致病性预测工具,同时还通过GeneBe和InterVar实现ACMG/AMP分类的自动化处理。MuSA会对输入的VCF文件进行标准化处理,在完全容器化的流程中并行执行各种注释任务,最终将结果整合为结构丰富的突变注释格式(MAF)文件(每个变异最多可包含920列数据),同时还会生成带有HPO匹配基因列表的交互式HTML报告,方便临床人员查看。在基于公共GIAB NA12878/HG001 GRCh38基准VCF文件得到的、包含22,705个变异的WES类似数据集上进行的测试显示,MuSA在64核服务器上大约20分钟就能完成全部扩展模式下的注释工作。与nf-core/sarek和nf-core/variantprioritization工具的对比表明,MuSA独特地结合了自动化资源管理、基于YAML的版本跟踪和SHA-256完整性验证功能、原生的dbNSFP集成、基于RENOVO的非常见变异优先级排序、基于HPO的基因列表筛选功能,以及面向临床的交互式HTML报告;而这些功能在现有的nf-core注释流程中大多并不存在。通过Docker/Singularity实现的容器化技术以及预定义的执行配置,使得该工具能够在工作站、高性能计算集群和云环境中实现可重复部署。
MuSA提供了一个端到端的框架,用于面向临床需求的生殖系变异注释和优先级排序,有效解决了手动操作及通用型工作流程存在的诸多问题。它的双输出设计兼顾了研究需求(可与maftools等后续工具兼容的机器可读MAF文件)和临床诊断需求(可直接用于解读的HTML报告),有助于实现不同团队之间统一且标准化的变异解读工作。目前的局限性包括仅能处理hg38染色体上的生殖系小变异,扩展模式下的存储需求较大(可达223.5GB),此外ACMG/AMP分类和基于表型特征的筛选功能还依赖于外部API。基于RENOVO的非常见变异优先级排序模块目前仍处于实验阶段,在用于临床解读之前还需要专家进行审核。
生物通微信公众号