TIPP-SD:一种用于微生物组物种检测的新方法

《PLOS Computational Biology》:TIPP-SD: A new method for species detection in microbiomes

【字体: 时间:2026年05月29日 来源:PLOS Computational Biology 3.6

编辑推荐:

  在本研究中,研究人员提出了TIPP-SD(即TIPP for Species Detection,物种检测的TIPP方法),一种用于微生物组样本物种检测的新技术。TIPP-SD基于近期开发的、依托最大似然系统发生树植入(Maximum Likelihood P

  
在本研究中,研究人员提出了TIPP-SD(即TIPP for Species Detection,物种检测的TIPP方法),一种用于微生物组样本物种检测的新技术。TIPP-SD基于近期开发的、依托最大似然系统发生树植入(Maximum Likelihood Phylogenetic Placement)至标记基因(Marker Gene)分类学树进行丰度谱图(Abundance Profiling)分析的TIPP3方法进行了大幅修改。TIPP-SD依赖一个参数(即"阈值"threshold)来控制物种检测所需的支持度,从而允许研究人员通过改变该参数绘制精确度—召回率(Precision-Recall)曲线。通过对比TIPP-SD、TIPP3、Kraken2、Bracken、Metabuli及Metapresence的精确度—召回率曲线,研究发现:在物种丰度分布高度不均或存在测序错误的条件下,TIPP-SD相较于其他方法准确性更优;在其他条件下,TIPP-SD的表现接近最优方法。尽管TIPP-SD较其他方法运行速度慢,但仍可满足大型数据集的分析需求。TIPP-SD作为TIPP3软件包的一部分发布于GitHub。
论文解读:TIPP-SD——基于最大似然系统发生树植入的微生物组物种检测新方法
一、研究背景与意义
微生物组中物种检测(Species Detection)旨在列出现存于环境样本中的物种,而丰度谱图(Abundance Profiling)则估算各分类阶元(种、属、科等)的相对分布,二者是微生物组分析的核心问题。传统上常用Kraken2、Bracken、Metabuli等基于k-mer的方法或MetaPhlAn4等标记基因(Marker Gene, 单拷贝管家基因如核糖体蛋白)方法进行丰度谱图,再设定阈值做物种判定,但这存在明显局限:丰度谱图方法倾向于忽略极低丰度类群,且阈值选择缺乏理论依据,导致稀有种检测能力不足。虽已有Metapresence等专用物种检测工具,但在物种丰度极不均匀或三代长读长(PacBio/Nanopore)高错误率数据下精度仍受限。TIPP3是此前报道的基于最大似然系统发生树植入(Maximum Likelihood Phylogenetic Placement, 如pplacer、EPA-ng)至标记基因分类树的丰度谱图工具,在高错误率读段(Read)上表现优异,但其设计目标非物种检测。为此,研究人员在TIPP3基础上改造开发出TIPP-SD(TIPP for Species Detection),专用于高精度物种检测,并发表于《PLOS Computational Biology》。
二、主要关键技术方法
研究人员以TIPP3参考包(各标记基因的多序列比对Multiple Sequence Alignment与分类树)为基础,先用BLASTN将读段过滤并映射至标记基因,再用BLASTN(默认快速模式)将读段插入对应标记基因比对,随后用BSCAMPP结合pplacer进行最大似然系统发生树植入获各边缘(Edge)支持值。区别于TIPP3取单边缘聚合丰度,TIPP-SD采用两种新策略汇总物种存在证据:①标记投票(Marker Vote)——统计可物种定级读段对各物种的标记基因投票比例;②标记置信度(Marker Confidence)——综合所有具非零植入支持值的读段对各物种的平均支持度再取各标记基因均值。设用户定义阈值T,判定Cs≥T或vote(s)/ms≥T的物种为检出。基准数据集含:50已知基因组(均等丰度,Illumina/PacBio/Nanopore)、1000已知基因组(低覆盖度~1×及Nanopore 10×,均等丰度)、CAMI II海洋宏基因组(Illumina及PacBio,301物种真实存在,丰度跨数个数量级)。对照方法均建相同基因组库:TIPP3(v0.3)、Kraken2(v2.17.1)+Bracken(v3.0.1)、Metabuli(v1.1.1)、Metapresence(v1.0),通过变动阈值绘制精确度—召回率(Precision-Recall)曲线,以精确度、召回率、F1值及PR曲线下面积(AUPR)评估。
三、研究结果
Experiment 1: Designing TIPP-SD(TIPP-SD算法参数设计)
研究人员在50已知基因组数据集上测试三种参数组合影响:序列插入比对工具(WITCH vs BLASTN)、系统发生树植入方法(pplacer-taxtastic vs BSCAMPP with EPA-ng vs BSCAMPP with pplacer)、物种判定策略(Marker Vote vs Marker Confidence)。结果:Marker Confidence优于Marker Vote;WITCH精度略高但耗时剧增;BSCAMPP with pplacer近似pplacer-taxtastic精度且近BSCAMPP with EPA-ng速度。默认选定BLASTN + BSCAMPP(pplacer) + Marker Confidence。通过F1筛选,保守检测阈值T≈0.2、高召回敏感阈值T≈0.12。
Experiment 2: Comparison to TIPP3, Bracken, Kraken2, and Metabuli(与TIPP3、Kraken2、Bracken、Metabuli的比较)
TIPP-SD整体精确度—召回率曲线优于直接用TIPP3设丰度阈值做检测(TIPP3召回率低)。经测试Kraken2/Bracken/Metabuli不过滤非标记基因读段且Kraken2/Bracken用置信度(Confidence Score)而非读段计数(Read Voting)更准。在CAMI II(丰度不均)及1000基因组PacBio读段上,TIPP-SD精确度与召回率均优于或持平最优对照;在1000基因组Illumina/Nanopore均等丰度数据上与其他方法相当或略逊个别指标。低丰度物种恢复分析显示:PacBio读段上TIPP-SD可达90%召回且精确度显著更高;Illumina高召回设定下TIPP-SD对中高丰度物种精确度更优。假阳性(FP)分析:CAMI II Illumina 90%召回时TIPP-SD FP最少(55)远少于Metabuli(442)、Kraken2(2041)、Bracken(6211);1000基因组 PacBio 95%召回时TIPP-SD FP最少(70)。计算性能:TIPP-SD(16核)慢于Kraken2/Bracken/Metabuli(64核)但仍可在0.5–8.6小时完成,内存占用仅3–29 GB远低于对照(Kraken2/Bracken峰值近600 GB)。
Experiment 3: Comparison to Metapresence(与Metapresence的比较)
限定参考为2000物种(1000已知+1000近缘ANI 80–95%),TIPP-SD-2000与Metapresence比较。Illumina读段二者相当;PacBio及Nanopore读段TIPP-SD-2000同召回下精确度高于Metapresence默认阈值(BER≥0.8, FUG≥0.5)。Metapresence建全库索引超内存超时未成故未能测大库。运行时Metapresence更快但长读段内存高于TIPP-SD。
四、讨论与结论总结
研究表明,TIPP-SD在物种丰度高度不均(如CAMI II)或高测序错误率(PacBio CLR平均78%准确率含插入缺失及替换错误)条件下,比Kraken2、Bracken、Metabuli及Metapresence具更优检测准确性,归因于其使用最大似然系统发生树植入与精确序列比对而非k-mer/meta-mer匹配。TIPP-SD虽慢于对照但因低内存与可接受运行时间适用于大数据集。未来方向含尝试不过滤非标记基因读段扩展参考包、按测序平台自适应阈值、拓展至属/科/菌株水平检测及评估HiFi/Nanopore新技术读段表现。结论:TIPP-SD是基于改良TIPP3框架、利用标记基因最大似然系统发生树植入与Marker Confidence汇总策略的微生物组物种检测新方法,在复杂丰度分布和高错误率三代测序数据中精度优势明显,可作为宏基因组物种组成探查的有力工具,源代码含于TIPP3包发布于GitHub。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号