《mSystems》:Optimizing methods for virome analysis based on studies of a synthetic viral community
编辑推荐:
对整个病毒群体(即“病毒组”)的研究正在为生物系统提供令人兴奋的新见解,但方法仍在优化中。在此,研究人员描述了一个合成病毒群落的生成及其在评估病毒组分析中出现的技术挑战中的应用。研究人员将模拟群落掺入不同的人类样本类型,然后通过不同的病毒富集方案处理样本,并采
对整个病毒群体(即“病毒组”)的研究正在为生物系统提供令人兴奋的新见解,但方法仍在优化中。在此,研究人员描述了一个合成病毒群落的生成及其在评估病毒组分析中出现的技术挑战中的应用。研究人员将模拟群落掺入不同的人类样本类型,然后通过不同的病毒富集方案处理样本,并采用Illumina测序进行分析。与直接宏基因组测序相比,病毒样颗粒(VLP)富集方案显著提高了粪便和唾液中的病毒读段产量。比较了四种DNA扩增方法,其中三种显示出对小环状单链DNA(ssDNA)病毒的过度扩增,尤其是GenomiPhi。对病毒颗粒在核酸酶存在下的稳定性研究表明,大多数病毒基因组在病毒颗粒内受到保护时是稳定的,但噬菌体MS2 RNA在某些测试条件下意外地不稳定。比较Illumina 1,000循环测序与300循环测序表明,更长的读段支持生成更长的病毒基因组组装。研究人员测试了经葡萄糖基-羟甲基胞嘧啶(ghmC)和羟甲基胞嘧啶(hmC)修饰的噬菌体T4 DNA,发现两者均易于检测,尽管与未修饰胞嘧啶的T4基因组相比,ghmC修饰DNA的回收率有所降低。这些研究连同已发表的数据为病毒组研究人员优化分析方案提供了指导。
研究背景方面,行星病毒组规模巨大,病毒颗粒(VLP)在环境中极为丰富,且病毒可通过多种方式影响宿主功能,因此表征整个病毒群体具有重要科学意义。然而,病毒组分析面临多重挑战:由于病毒多样性极高,仅少数病毒已被鉴定,大量测序读段无法匹配现有数据库;病毒序列在生物样本中占比极低,非病毒核酸干扰严重;病毒颗粒在基因组类型(RNA/DNA)、链型(单链/双链)、形态(有包膜/无包膜)、大小(25 nm至1.5 μm)及基因组范围(2.8 Mb至200-400 nt)上存在极大异质性。现有病毒富集方案虽多,但尚无单一方法适用于所有样本类型,且存在未知偏向性。为系统优化病毒组分析方法,研究人员构建了一个由8种已知病毒组成的合成病毒群落(VirMock1),覆盖多种病毒类型(包括有包膜与无包膜的RNA/DNA病毒、单链与双链基因组、线性与环状基因组等),并将其掺入不同人体样本(粪便、唾液、支气管肺泡灌洗液(BAL)、口咽冲洗液等),系统评估病毒富集、DNA扩增、核酸酶处理、测序平台及DNA修饰等关键步骤对病毒回收的影响。该研究为病毒组分析方案的优化提供了实验依据和实用指导,论文发表在《mSystems》上。
研究人员开展研究时,主要利用了以下关键技术方法:(1)合成病毒群落(VirMock1)的构建与掺入,包含8种病毒(Table 1),来源包括大肠杆菌、人细胞系、非洲绿猴肾细胞、假单胞菌、小鼠成纤维细胞等;(2)针对粪便样本采用三种病毒富集方案(VP1、VP2、VP3)及针对低生物量液体样本(唾液、BAL等)的方案VP4,涉及均质化、离心、过滤、核酸酶处理及核酸提取等步骤;(3)四种DNA扩增方法(GenomiPhi V3、PTA、WTA2、MALBAC)的比较,以及第二链cDNA合成方法的评估;(4)梯度核酸酶(DNase I和牛胰腺RNase)处理结合Illumina测序或qPCR定量;(5)Illumina 300循环测序与1,000循环测序的对比;(6)利用噬菌体T4不同修饰突变株(T4ghmC、T4hmC、T4C)结合LC-MS/MS、酶切实验及测序评估DNA修饰影响。样本队列来源为健康志愿者提供的粪便、唾液、BAL和口咽冲洗液。
研究结果分节总结如下:
**Comparison of methods for recovering VLP contigs(回收VLP重叠群方法的比较)**:通过比较三种VLP富集方案(VP1、VP2、VP3)与直接宏基因组DNA/RNA测序,发现粪便样本经VLP富集后,病毒重叠群匹配读段比例平均达62.9%至73.0%,而直接DNA测序和RNA测序仅分别为2.37%和0.128%。对唾液应用VP4方案,病毒读段比例从直接测序的2.10%和0.179%升至34.8%。但对BAL这种低生物量样本,VP4未能回收任何病毒重叠群,表明低生物量样本需要其他分析方法。
**Assembling the VirMock1 synthetic viral community(组装VirMock1合成病毒群落)**:研究人员组装了包含多种形态、基因组类型(RNA/DNA、单链/双链)的8种病毒,包括phi6、MS2、MHV(RNA病毒)以及AAV、lambda、M13、T4、VV(DNA病毒),并纳入T4突变株以研究DNA修饰影响。
**Use of VirMock1 to test protocols for virus recovery from stool(利用VirMock1测试粪便病毒回收方案)**:将VirMock1掺入粪便或SM缓冲液后经VP1–VP3处理,测序结果显示:掺入粪便时VP1回收病毒重叠群比例最高(72.8%),VP2和VP3略低;掺入缓冲液时VP2回收最佳,VP1和VP3损失严重。所有8种病毒在粪便掺入后均被检测到,而直接提取仅检测到6种(MS2和MHV仅痕量),提示粪便成分可能产生“载体效应”稳定病毒。主坐标分析(PCoA)也显示粪便样本聚类更紧密,支持载体效应。
**Distortions of recovered communities associated with different DNA amplification and library preparation methods(不同DNA扩增和文库制备方法导致的回收群落失真)**:比较四种扩增方法(GenomiPhi、PTA、WTA2、MALBAC)与未扩增对照,发现GenomiPhi极度偏向M13(小环ssDNA),可能由于滚环复制;PTA对疫苗病毒有不同程度偏向;WTA2和MALBAC也显示对M13的适度偏向。PCoA分析(Bray-Curtis距离,PERMANOVA R2=0.719,P=0.001)显示样本按扩增方法聚类,GenomiPhi最偏离未扩增对照。此外,第二链cDNA合成步骤(Klenow聚合酶)可降低病毒比例变异性,因此推荐使用。
**Virus types differ in their sensitivity to nuclease treatments(不同类型病毒的核酸酶敏感性差异)**:通过梯度核酸酶处理(0.1×至10×标准浓度)结合Illumina测序和qPCR定量,发现大多数病毒(AAV、M13、lambda、VV、MHV、phi6、T4)在10×浓度下仍保持稳定,但噬菌体MS2在0.1×浓度下即显著减少(Spearman相关性显著),且掺入粪便后即使在无核酸酶处理时也有丢失。phi6在粪便中相对丰度有所下降。游离核酸在1×处理下有效去除。
**Comparing Illumina short-read versus longer read sequencing(Illumina短读长与长读长测序的比较)**:相同文库分别用300循环和1,000循环试剂盒测序,两者检测的病毒类型比例相似(以Caudoviricetes和Malgrandaviricetes为主)。但1,000循环试剂盒产生更长的整体重叠群和病毒重叠群(中位数长度576 bp vs 449 bp,Wilcoxon秩和检验P<0.001),且不同测序深度也影响重叠群长度。
**Beginning to assess the possible influence of covalent DNA modification(初步评估共价DNA修饰的可能影响)**:比较T4野生型(ghmC修饰)、T4hmC(hmC修饰)和T4C(未修饰胞嘧啶)与lambda混合后的测序回收。经qPCR定量基因组拷贝数标准化后,ghmC修饰T4的相对丰度比预期低约2.6倍(Kruskal-Wallis检验P=0.027),而hmC和未修饰者无明显降低。推测ghmC可能部分抑制Nextera转座酶步骤。
讨论部分指出,多项已发表方案可有效富集粪便和唾液病毒颗粒,但低生物量样本(如BAL、OP洗液)的富集效果不确定。直接宏基因组测序可回收dsDNA和RNA病毒,但VLP富集大幅提高病毒读段比例。扩增方法会引入失真,需谨慎使用。大多数病毒可耐受核酸酶处理,但MS2敏感,其颗粒结构(含门户蛋白)可能暴露基因组。长读长Illumina测序有助于获得更长重叠群。T4 DNA的ghmC修饰虽可检测,但回收率降低。基于实验,研究人员推荐VP1用于粪便、VP4用于唾液(方案见Document S1)。短读长与长读长测序各有优劣,1,000循环试剂盒在平衡成本与长度方面有优势。方法选择取决于样本类型和实验目标,对于低生物量样本,直接测序可能更佳。多种其他方法(如杂交捕获)各有适用场景。本研究未涵盖极端病毒(如巨型病毒、微小环状RNA),未来需进一步优化。存储条件初步显示影响不大,但需更多参数研究。
研究结论部分翻译如下:主要结论包括以下几点。多种已发表方案可富集粪便和唾液中的病毒颗粒;低生物量样本(如BAL和OP洗液)的富集步骤是否有效尚不确定。常规宏基因组DNA测序可回收dsDNA病毒基因组,RNA测序可回收RNA病毒基因组,但病毒富集方案大幅提高了注释为病毒的重叠群读段比例。扩增方法会引入数据失真,应谨慎使用。大多数病毒颗粒可耐受核酸酶处理,但MS2在某些条件下敏感;一个推测是MS2颗粒结构中嵌入的衣壳蛋白可能暴露病毒基因组导致降解。长读长Illumina测序可回收更长的病毒重叠群。噬菌体T4基因组的DNA修饰未完全阻断在所用流程中的捕获,但葡萄糖基-羟甲基胞嘧啶的存在确实降低了回收率。