《Nature Biotechnology》:Improving metagenome binning by integrating intrinsic features and taxonomy
编辑推荐:
为提升宏基因组组装基因组(MAGs)的恢复质量与完整性,特别是对于不完整基因组和低样本量场景,Rasmussen团队开发了TaxVAMB。该工具采用半监督双模态变分自编码器(VAE),首次将四核苷酸频率(TNFs)、重叠群共丰度与分类学标签进行有效整合。研究表明,TaxVAMB在CAMI2等基准测试中表现卓越,显著增加了高质量MAGs的数量,并降低了对单拷贝基因(SCGs)的依赖,为复杂微生物群落的高质量基因组挖掘提供了强大新工具。
在探索肉眼看不见的微生物世界时,科学家们常常面临一个棘手的难题:如何从环境样本(如土壤、海水或人体肠道)中混合的亿万DNA片段里,准确地将属于同一个微生物物种的片段“拼”回完整的基因组蓝图?这个过程被称为宏基因组分箱。传统的分箱工具主要依赖两类“线索”:一是序列本身的固有特征,比如四核苷酸频率(TNFs),它像每个物种的“序列指纹”;二是同一物种的DNA片段在不同样本中丰度变化的模式,即重叠群共丰度。然而,这两种线索在样本数量稀少或基因组本身不完整(许多DNA片段丢失)的情况下,信号会变得微弱甚至混乱,导致分箱效果大打折扣。
近年来,另一类强大的“线索”——基于比对数据库获得的分类学标签(即指明一个DNA片段可能属于哪个物种、属、科等信息)——尽管潜力巨大,却因标注不完整、存在噪声且具有层次结构,在分箱中未被充分利用。那么,能否设计一种聪明的方法,将这些分散、不完美但蕴含宝贵信息的线索整合起来,从而显著提升宏基因组分箱,特别是对不完整和稀有基因组的挖掘能力呢?
为此,来自国外研究机构的S. Kutuzova, M. Nielsen, P. Piera, J. N. Nissen, S. Rasmussen团队在《Nature Biotechnology》上发表了他们的研究成果。他们开发了一个名为TaxVAMB的新型分箱工具。TaxVAMB的核心创新在于采用了一种半监督的双模态变分自编码器(VAE)框架。这个框架就像一个“智能信息融合器”,能够同时处理两种模态的数据:一种是传统的内在特征(TNFs和丰度),另一种是分类学标签。其巧妙之处在于,它能够处理大量没有分类学标签的序列,并通过一个称为Taxometer的组件来优化和预测这些标签。TaxVAMB的目标是学习一个统一的、信息丰富的序列潜在表示,从而更准确地将源于同一基因组的序列片段聚类在一起。
为了开展这项研究,研究人员综合运用了多项关键技术。在数据预处理阶段,他们使用bwa-mem(短读长)或minimap2(长读长)将测序读数比对到组装的重叠群上,并通过pycoverm计算丰度,同时计算TNFs。分类学注释则通过MMseqs2、Metabuli、Kraken2、Centrifuge等多种分类器获得,并利用Taxometer工具进行优化以提升标签质量。核心模型构建基于双模态变分自编码器(VAE)架构,该架构包含三个编码器和两个解码器,能够处理成对和未配对的数据,并采用分层损失函数来利用分类标签的层次结构。模型使用PyTorch实现,在GPU上进行训练。在分箱后处理中,他们采用了VAMB的原始聚类算法,并可选择性地应用从SemiBin2改编的单拷贝基因(SCGs)重聚类步骤(短读长数据用k均值,长读长数据用DBSCAN)。性能评估则依赖于严格的基准测试,包括使用BinBencher工具在CAMI2合成数据集上评估高质量基因组和组装体的数量,以及在真实数据集上使用CheckM2和GUNC评估宏基因组组装基因组(MAGs)的完整性、污染和嵌合情况。
研究结果
TaxVAMB在CAMI2数据集上产生了最多的组装体
在包含真实物种组成信息的CAMI2人工合成人类微生物组短读长数据集上,TaxVAMB与六种其他分箱工具进行了比较。评估指标包括恢复的高质量(HQ,召回率≥0.9,精度≥0.95)基因组和组装体数量。结果显示,在五个CAMI2数据集中,TaxVAMB在恢复高质量组装体方面全面领先。相较于第二名,在呼吸道数据集上多恢复了64%,在泌尿生殖道数据集上多23%,在胃肠道数据集上多8.7%,在皮肤数据集上多37%,在口腔数据集上多21%。特别值得注意的是,TaxVAMB在分箱不完整基因组(输入数据中基因组覆盖率<90%的部分)方面表现尤为突出,这显示了其在处理真实、复杂数据时的优势。
TaxVAMB在不使用单拷贝基因的情况下仍优于依赖单拷贝基因的分箱工具
由于单拷贝基因(SCGs)常被同时用作分箱的输入特征和评估分箱质量的标准,这可能导致评估偏差。研究表明,即使在不使用SCGs进行重聚类的情况下,TaxVAMB的性能也显著优于同样未使用SCGs的SemiBin2。而在应用SCGs重聚类后,TaxVAMB的性能提升相对较小(5.8–23%),而SemiBin2的性能提升则大得多(32–134%)。这说明TaxVAMB的核心优势并非依赖SCGs,从而能够更公正、更有效地对不完整基因组进行分箱。
双模态变分自编码器在高质量分箱数量上优于堆叠自编码器
通过消融实验比较了不同模型架构的性能。结果发现,TaxVAMB使用的双模态VAE架构在CAMI2数据集上的平均表现优于堆叠自编码器,平均绝对性能差异为4.8%。在呼吸道和皮肤数据集上,优势分别达到12.2%和10.2%。此外,使用Taxometer优化分类学标签对所有架构均有显著益处。这证实了半监督双模态VAE架构在整合异质信息用于宏基因组分箱任务上的有效性。
TaxVAMB在短读长真实数据集中位列顶级分箱工具之列
在对来自七个不同环境(包括人类肠道、森林土壤、黑海海水等)的九个真实短读长数据集进行测试时,TaxVAMB的表现与环境相关。在三个研究较深入的人类肠道数据集上,TaxVAMB产生了最多的高质量和中等质量(MQ)MAGs。在其他环境的数据集上,不同工具各有优势,但TaxVAMB始终保持竞争力。此外,与SemiBin2相比,TaxVAMB产生的嵌合性MAGs比例显著更低,这表明整合分类学信息有助于产生更“纯净”的分箱结果。
分类学注释对分箱性能的影响
TaxVAMB的性能依赖于输入的分类学注释质量。研究测试了四种分类器(MMseqs2, Metabuli, Kraken2, Centrifuge)并结合不同数据库(GTDB, NCBI)。在CAMI2数据集上,Centrifuge在三个数据集中获得了最高的高质量基因组数量。通过结合Taxometer进行交叉验证,可以在没有真实标签的情况下,有效评估不同分类器在特定数据集上的相对表现,从而指导用户选择可能带来最佳分箱效果的分类器。
TaxVAMB在人类肠道长读长数据集上产生了最多高质量分箱
随着长读长测序技术在宏基因组学中的应用日益增多,研究团队在两个长读长数据集上进行了测试。在人类肠道数据集上,TaxVAMB恢复了比次优工具多29%的高质量MAGs。在另一个研究较少的消化污泥数据集上,虽然高质量MAGs数量少于VAMB,但中等质量MAGs数量更多。这表明,当分类学信息质量高时(如人类肠道),TaxVAMB优势明显;即使分类学信息不完善,其性能依然具有竞争力。系统发育多样性分析显示,TaxVAMB在人类肠道数据中恢复了比VAMB更多的物种级分类单元,表明其能挖掘出更丰富的微生物多样性。
分类学信息在小样本量分箱中作用凸显
重叠群共丰度信息的效果随样本量增加而增强。通过分析包含1000个人类肠道样本的大型数据集,研究人员发现,当样本量极大(1000个)时,TaxVAMB仅比VAMB多恢复3%的高质量MAGs。但当样本量减少到100个、10个和单个样本时,TaxVAMB的优势分别扩大到16%、23%和48%。在另一个小麦叶际数据集上,单样本分箱的优势甚至达到118%。这证明分类学信息可以有效弥补样本量不足导致的丰度信号弱的问题,使TaxVAMB在典型的、样本量有限的研究中具有巨大价值。
TaxVAMB提供一致的分箱注释
由于TaxVAMB在分箱过程中通过Taxometer为所有重叠群预测了分类学标签,因此可以通过多数投票法直接为每个MAG分配分类学注释。在CAMI2数据集上验证,其准确率在物种水平可达91-98%,与专用分类工具GTDBtk的准确率(97-99%)相当。这为生成的MAGs提供了即时、可靠的初步分类信息,且不限于原核生物。
TaxVAMB在小麦叶际样本中揭示了细菌和真菌的宏基因组组装基因组
最后,研究团队将TaxVAMB应用于一个包含211个样本的小麦叶际(植物叶片表面)短读长数据集。TaxVAMB成功恢复了614个高质量和647个中等质量的细菌MAGs,涵盖五个门。这些MAGs平均能解释样本中49.2%的读数。研究鉴定出了多种已知与小麦叶际相关的物种,并发现了一个潜在的新Sphingomonas物种。此外,TaxVAMB还成功恢复了两种重要小麦病原真菌(Zymoseptoria tritici 和 Pyrenophora tritici-repentis)的高质量真菌MAGs,证明了其处理真核生物基因组的能力。
结论与讨论
本研究提出的TaxVAMB,是一种开创性的半监督深度学习分箱方法。它通过利用分类学标签的完整层次结构,成功地将分类学信息与序列内在特征深度融合,显著提升了宏基因组分箱的性能。研究表明,TaxVAMB在以下两种场景中提升最为显著:一是在分类学标签质量较高的环境中(如人类肠道微生物组);二是在样本量有限(少于100个样本)的情况下,此时分类学信息可以有效弥补共丰度信号的不足。TaxVAMB在不依赖单拷贝基因(SCGs)的情况下仍能取得优异表现,这降低了对特定生物标志物的依赖,并避免了对SCG依赖型工具的评估偏差。此外,TaxVAMB在分箱不完整基因组方面能力卓越,并能直接为生成的MAGs提供高质量的初步分类注释,无需额外运行专门的分类工具。
尽管TaxVAMB的表现依赖于输入分类学注释的质量,可能对数据库中已充分研究的类群存在潜在偏好,但研究人员通过概率输出置信度过滤和无监督学习机制,部分缓解了这一问题。随着基因组参考数据库的不断扩充和更新,这种偏见将进一步减弱。
该研究的深远意义在于,它揭示了未来宏基因组分箱性能的提升,很可能更多地来自于整合新的数据模态,而非进一步优化对TNFs和丰度等固有特征的分析算法。TaxVAMB所采用的半监督多模态变分自编码器框架,非常适合从带有弱标签的、异质的生物多组学数据中学习。其分层损失函数在处理具有天然层次结构的生物学数据方面也具有广泛的应用潜力。通过有效整合分类学标签与内在特征,TaxVAMB克服了以往在分箱中利用分类学信息的挑战,提高了在困难条件下的基因组恢复率,提供了稳健的分类注释,并为未来扩展建立了一个灵活的框架。随着时间推移和参考数据库质量的提高,像TaxVAMB这样的方法的影响力将只增不减。