编辑推荐:
利用DNA条形码(DNA barcoding)数据的单一位点物种界定(single-locus species-delimitation)方法为大规模生物多样性调查和整合分类学(integrative taxonomy)做出了重要贡献,使得能够从大量个体中快速
利用DNA条形码(DNA barcoding)数据的单一位点物种界定(single-locus species-delimitation)方法为大规模生物多样性调查和整合分类学(integrative taxonomy)做出了重要贡献,使得能够从大量个体中快速且可重复地估计α多样性。目前存在一系列基于距离(distance-based)和基于树(tree-based)的方法来执行这些分析,包括自动条形码间隙发现(ABGD)、基于自动分区的物种组装(ASAP)、一般混合Yule–共存(GMYC)和多速率泊松树过程(mPTP)。然而,这些软件的输出具有特异性,难以整合和比较。R软件包delimtools提供了一个平台,能够:(1) 预处理、清理和格式化数据;(2) 压缩和总结单倍型信息;(3) 执行、解析和合并程序输出与物种划分(species partitions);以及 (4) 表格化结果并在系统发育树上可视化。开源delimtools软件包为扩大和标准化物种界定分析开辟了新途径,并可在CRAN(https://cran.r-project.org/package=delimtools)和GitHub(https://github.com/legalLab/delimtools/)仓库中获取。
**论文解读:delimtools——整合单一位点物种界定的R软件包**
**研究背景与存在问题**
物种(species)是生物多样性的基本单元,在生态学、进化、系统学和保护生物学中具有核心作用。然而,大量生物多样性尚未被描述,特别是小型、高度多样化的热带无脊椎动物类群中隐存种(cryptic species)现象普遍。传统形态学方法难以区分近期分化的物种,分子数据成为发现和界定物种的重要工具。单一位点物种界定方法(single-locus species-delimitation methods),如基于距离的自动条形码间隙发现(ABGD)、基于分区的物种组装(ASAP),以及基于树的广义混合Yule–共存(GMYC)和多速率泊松树过程(mPTP),已被广泛应用于DNA条形码(DNA barcoding)数据,支持大规模生物多样性调查与整合分类学(integrative taxonomy)。然而,这些软件的输出格式各不相同,难以直接整合与比较;现有集成工具(如iTaxoTools、SPdel)多基于Python,缺乏R语言环境的统一解决方案。此外,分析流程中数据预处理、单倍型压缩、结果合并及可视化等步骤常依赖临时脚本,缺乏标准化。因此,研究人员旨在开发一个R软件包,能够执行多种单一位点物种界定方法,生成共识划分(consensus delimitation),并可视化结果,以推动物种界定分析的规模化与标准化。该研究发表在《Genome》。
**关键技术方法**
研究人员利用R语言编写了delimtools软件包,集成七种常用单一位点物种界定方法(ABGD、ASAP、GMYC、bGMYC、mPTP、PTP、localMinima)。主要技术方法包括:(1) 数据预处理与质检:通过函数`clean_dna`去除核苷酸碱基模糊(ambiguous nucleotides)和缺失数据;`hap_collapse`将多重序列比对(MSA)压缩为唯一单倍型(unique haplotype)以避免重复序列导致过度分裂。(2) 系统发育树构建:使用BEAST v2.6.7生成超度量树(ultrametric tree)用于GMYC,RAxML-NG v1.2.2生成有根系统树(rooted phylogram)用于PTP/mPTP。(3) 物种界定方法执行与解析:所有方法通过本地Unix程序或在线Web服务器运行,结果由`*_tbl`函数解析为统一tibble格式。(4) 结果合并与共识:通过`delim_join`合并各方法划分,`delim_consensus`基于多数投票(majority-vote)生成共识划分;`match_ratio`计算方法间一致性以识别离群划分。案例数据来自GenBank的南美食土慈鲷属(Geophagus sensu stricto)COI-5P(线粒体细胞色素C氧化酶亚基I 5'端)序列,共354条,处理后获得137个单倍型。
**研究结果**
**数据获取与处理**:研究人员从NCBI下载354条Geophagus sensu stricto复合体的COI-5P序列,长度505–861 bp,经比对和修剪后统一为690 bp,经`hap_collapse`压缩为137个唯一单倍型。该数据集包含10个有效物种和6个形态可诊断但未命名的分类单元(Geophagus sp. 1–6),每个物种的单倍型数从3到32不等,种内最大p-distance为0.15%–2.21%,种间最小p-distance介于0%(G. altifrons vs. G. neambi)至8.8%之间。G. altifrons和G. neambi为非单系群(non-monophyletic)。
**物种界定方法执行**:各方法划分的谱系数量分别为:mPTP 11、ASAP 14、形态学假设16、PTP 17、bGMYC 18、ABGD 19、GMYC与LocMin各21。多数投票共识(n_match=4)产生16个谱系。对于G. megasema,三种方法(ASAP, mPTP, PTP)将其与Geophagus sp. 1合并,而bGMYC、GMYC和形态学视其为单独谱系,ABGD和LocMin则将其分为两个谱系。G. altifrons和G. neambi在所有方法(除形态学外)中被划归同一谱系,未观察到互斥单系(reciprocal monophyly)。G. proximus和G. winemilleri内部被检测到额外的谱系。
**匹配率统计**:方法间匹配率(match ratio)介于0.85(ABGD/LocMin)到0.25(LocMin/mPTP)之间;mPTP与大多数方法匹配率低于0.5,表明其在该数据集上表现不一致。共识划分与各方法的匹配率从0.94(bGMYC/consensus)到0.52(mPTP/consensus);虽然共识与形态学均划分为16个谱系,但仅11个一致(匹配率0.69)。
**讨论与结论**
讨论部分指出,delimtools不仅是一个单一位点物种界定分析流程,更提供了前处理、后处理、可视化和统计功能的整合平台。该软件包的模块化设计允许用户轻松纳入形态学、生态学或基因组学等任意来源的物种划分(通过`morph_tbl`和`delim_tbl`函数),推动整合分类学框架的发展。通过R语言实现,delimtools利用了R丰富的生态、系统发育和可视化扩展包,具备跨平台兼容性。研究结论强调,delimtools通过集成多种方法、生成共识划分并支持自动化分析,能够应对日益增大的数据规模与复杂问题,为物种界定分析的标准化和规模化开辟了新途径。该软件包以开源形式发布在CRAN和GitHub,并提供详细文档与教程。