宏基因组测序深度基准测试：浅层测序的潜力与局限及菌株水平分析标准

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Nature Microbiology》：Benchmarking of shotgun sequencing depth reveals the potential and limitations of shallow metagenomics and strain-level analysis

【字体：大中小】 时间：2026年04月22日 来源：Nature Microbiology 19.4

编辑推荐：

　　为解决宏基因组测序深度选择缺乏标准的问题，研究人员对复杂模拟群落进行多深度测序与多方法分析，发现浅层测序（0.5–1.0 Gb）可满足参考依赖的菌株分型，而de novo组装需>10 Gb且易产生嵌合体，为资源分配与数据解读提供了实证依据。

在微生物组研究领域，科学家们常常面临一个“鱼与熊掌”的难题：是选择成本低廉但分辨率有限的16S rRNA测序，还是选择信息丰富但价格昂贵的深度全基因组测序（Shotgun Metagenomics）？近年来，一种折中的“浅层宏基因组测序”（Shallow Shotgun Metagenomics，通常指数据量≤1 Gb）开始流行，它试图以接近16S测序的成本，获取物种甚至菌株级别的分辨率和功能基因信息。然而，这种“浅尝辄止”的策略到底能挖多深？在多大的测序深度下，我们得到的菌株信息和功能通路才是可靠的？此前，缺乏系统的实验数据来回答这些问题。

为了填补这一空白，并给微生物组研究的实验设计提供黄金标准，一项发表在《Nature Microbiology》上的研究对复杂微生物群落进行了从0.1 Gb到50 Gb共11个深度的系统性基准测试。该研究利用已知组成的模拟群落（Mock Communities），揭示了浅层测序在物种分类、菌株分辨和功能分析上的真实潜力与局限。

关键技术方法概览

研究人员构建了包含70株细菌的均匀（Mock-even-70）和梯度（Mock-stag-70, Mock-stag-24）DNA模拟群落，并在两个实验室、有无小鼠肠道背景DNA（bgDNA）干扰的条件下制备文库，使用Illumina平台进行0.1至50 Gb的测序。数据分析采用参考基因组比对、MetaPhlAn4非监督分类、MEGAHIT/metaSPAdes组装、MetaWRAP分箱（binning）获取宏基因组组装基因组（MAG），以及HUMAnN3功能通路分析等生物信息学方法，系统评估了深度对分类准确性、菌株分辨率和功能覆盖度的影响。

研究结果解析

浅层测序可实现可靠的参考依赖物种分类

研究首先发现，即使在最浅的0.1 Gb深度，也能检测到所有参考基因组，但覆盖度差异巨大。在均匀分布的70株 mock 中，0.1 Gb时大部分基因组（63–91%）覆盖度极低（0–25%）。随着深度增加，覆盖度显著提升，5 Gb时大部分菌株能达到>90%覆盖。然而，在丰度梯度极大（某些菌株仅占0.00046‰）的Mock-stag-70中，即使测到50 Gb，仍有11个低丰度基因组覆盖度不足25%，提示对于稀有物种，单纯增加深度并非万能。

在物种定量方面，浅层测序表现稳健。从0.1 Gb到50 Gb，主要物种的相对丰度没有显著变化。通过生物信息学重采样发现，单个物种丰度的变异系数（CV）在浅层虽略有增加，但平均仍低于5%，说明浅层数据足以进行可靠的群落结构评估。

相比之下，不依赖参考数据库的非监督分析（如MetaPhlAn4）则显得“力不从心”。该方法不仅漏检了低丰度物种（如Mock-stag-24中的 Hominilimicola fabiformis），且测得的相对丰度与理论值偏差更大，尤其在复杂群落和浅层测序中误差显著。结论是：如果有参考基因组，0.5–1.0 Gb足以进行准确的菌株水平分类；若无参考，浅层测序的漏检风险较高。

菌株水平De Novo组装需深度测序且易产生嵌合体

菌株水平的解析是微生物组研究的圣杯。研究针对Mock-even-70中的4株 Escherichia coli和4株 Phocaeicola vulgatus进行了深入分析。参考比对显示，所有菌株在0.1 Gb即被检出，5 Gb时覆盖度>75%，10 Gb时>98%。但MetaPhlAn4在所有深度均只报告一个菌株，无法分辨高同源性菌株。

更令人意外的是De Novo组装的结果。随着深度增加，组装出的MAG数量反而超过了实际存在的参考基因组，且出现了“一个真菌株被拆成多个MAG”的过度分割现象。更严重的问题是嵌合体（Chimerism）。在10 Gb深度，Mock-even-70中约一半的高质量MAG（hqMAGs）被证明是嵌合体，即一个MAG中包含来自多个不同菌株的序列。例如，一个看似高质量（>90%完整度，<5%污染）的MAG，经比对发现其序列竟来自12个不同的参考基因组。这种现象在采用多覆盖度分箱（Multi-coverage binning）或不同组装软件（MEGAHIT vs metaSPAdes）时依然存在，说明是短读长测序在复杂群落中的固有局限。这意味着，基于浅层或常规深度的短读长数据进行De Novo菌株挖掘，很可能得到大量错误的“弗兰肯斯坦”基因组。

功能分析：通路水平2 Gb足矣，蛋白覆盖需10 Gb

在功能层面，研究评估了KEGG通路和蛋白家族的覆盖度。对于所有测试的模拟群落，2 Gb的测序深度足以可靠地揭示通路水平的差异。然而，若要获得充分的蛋白质家族（UniRef90）覆盖，则需要达到或超过10 Gb。这为不同研究目的（通路筛选 vs 精细功能挖掘）提供了明确的预算指南。

实验因素与背景DNA的干扰

研究还评估了现实实验中的干扰因素。文库制备地点（Lab effect）对结果有显著影响，特别是在低丰度物种的检测上。此外，宿主DNA污染是浅层测序的“杀手”——当样本中含有50%的小鼠肠道背景DNA时，微生物基因组的有效测序深度被严重稀释，导致低丰度物种几乎无法被检测。这提示在宿主DNA丰富的样本（如黏膜组织、血液）中，浅层测序策略可能完全失效，必须进行宿主DNA去除。

结论与意义

这项研究为微生物组学界提供了一份详尽的“测序深度-产出”地图：

1.
浅层测序（0.5–1 Gb）：适用于有参考基因组的物种分类和相对丰度分析，成本效益最高。
2.
中等深度（2–5 Gb）：适合功能通路分析和大部分基因组的覆盖，是多数宏基因组研究的平衡点。
3.
深度测序（≥10 Gb）：是进行De Novo菌株分箱、获取高质量MAG和全面蛋白家族覆盖的必要条件，但需警惕嵌合体风险。

该研究强调，标准的质量指标（如完整度>90%）并不能排除MAG的嵌合性，未来研究需结合长读长测序或参考基因组验证。对于临床和生态研究，明确研究目标（是看“谁在那里”还是挖“新菌株”）是选择测序策略的第一步，避免在浅层数据上做不切实际的菌株推断。

联系信箱：

粤ICP备09063491号