编辑推荐:
线粒体基因组(mitochondrial genome)广泛应用于昆虫分类学和系统发育学(phylogenetics),但由于线粒体基因组代表单一的母系遗传位点(single maternally inherited locus),其信号可能形态学和核基因组(
线粒体基因组(mitochondrial genome)广泛应用于昆虫分类学和系统发育学(phylogenetics),但由于线粒体基因组代表单一的母系遗传位点(single maternally inherited locus),其信号可能形态学和核基因组(nuclear genome)证据发生冲突。研究人员利用PacBio HiFi读段(reads)组装了四种蚱蜢(pygmy grasshoppers)的完整线粒体基因组:Zhengitettix transpicula、Formosatettix sp.、Gibbotettix parvipulvillus和Bolivaritettix sp.。四个线粒体基因组(mitogenome)长度介于15,152 bp至17,976 bp之间,包含典型的37个线粒体基因。通过最大似然法(Maximum Likelihood, ML)和贝叶斯法(Bayesian Inference, BI)推断的线粒体系统发育树在拓扑结构上完全一致,并恢复了几个得到良好支持的蚱科(Tetrigidae)关系,包括Formosatettix sp.与Bolivaritettix sp.的密切关系。然而,Z. transpicula出人意料地被置于靠近Macromotettixoides的位置,而非靠近其他Zhengitettix代表种。相比之下,基于形态学的树将Z. transpicula与Z. triangularis聚在一起,且与基于1962个位点的已发表核单拷贝直系同源(nuclear single-copy ortholog)树进行比较,支持Zhengitettix的非线粒体位置,这与Z. transpicula异常的线粒体位置不一致。基于原始HiFi读段的独立组装、读段深度检查、蛋白质编码基因(protein-coding gene)校验以及针对NUMT样序列(NUMT-like sequences)的核基因组筛选,均支持所组装的Z. transpicula线粒体基因组的真实性。这些结果记录了蚱科中的核-线粒体不一致(mito–nuclear discordance)和细胞-形态不一致(cyto-morphological discordance),并强调在分类复杂的昆虫类群中需要对线粒体系统发育进行整合性解读。
线粒体基因组(mitogenome)因其高拷贝数、相对保守的基因含量、母系遗传和快速进化速率,已成为昆虫系统学、分类学和进化生物学中最常用的基因组资源之一。然而,由于线粒体基因组是单一非重组的母系遗传位点,其系统发育信号可能与核基因组和形态学证据产生冲突。在蚱科(Tetrigidae)中,分子数据仍不均衡,针对线粒体与核系统发育信号一致性的检验尤为缺乏。为此,研究人员利用PacBio HiFi测序技术,首次完成了四种蚱蜢(Zhengitettix transpicula、Formosatettix sp.、Gibbotettix parvipulvillus和Bolivaritettix sp.)的完整线粒体基因组组装与注释,并结合形态学性状矩阵(92个离散特征)和已发表的基于1962个核单拷贝直系同源(nuclear single-copy ortholog)基因的系统发育框架,系统比较了线粒体、形态和核基因组的拓扑冲突。该研究发表《Life》。
**关键技术方法**:研究人员采用PacBio Revio平台对四个标本(采自中国云南和广西,包括大理和阳朔地区)进行全基因组HiFi测序;通过参考引导读段提取(以Tetrix japonica线粒体基因组为参考)结合从头组装(Flye)获得线粒体基因组序列;使用MITOS2和人工校正完成基因注释;基于13个蛋白质编码基因和2个rRNA基因构建最大似然法(Maximum Likelihood, ML)和贝叶斯法(Bayesian Inference, BI)系统发育树;基于92个形态特征构建形态树;并与文献中来自1962个核直系同源基因的核树进行缠绕图(tanglegram)比较;通过HiFi读段映射、独立组装比对和核基因组中NUMT样序列(NUMT-like sequences)筛选验证异常线粒体位置的真实性。
**研究结果**:
**3.1 四个新组装线粒体基因组的总体特征与结构变异**
通过PacBio HiFi读段组装了四个完整线粒体基因组,长度分别为Z. transpicula 15,152 bp、Formosatettix sp. 17,976 bp、G. parvipulvillus 16,541 bp、Bolivaritettix sp. 16,893 bp,GC含量分别为29.22%、25.14%、30.91%和25.73%。所有基因组均包含标准的13个蛋白质编码基因、22个tRNA基因和2个rRNA基因,基因顺序保守。核苷酸组成呈现强A+T偏向(69.1%–74.9%)和正AT偏斜、负GC偏斜。在trnS2
UCN与nad1之间的非编码区检测到显著长度变异(Z. transpicula 270 bp,Formosatettix sp. 895 bp,Bolivaritettix sp. 353 bp),其中Formosatettix sp.的895 bp插入是导致其基因组增大主因。HiFi读段支持这些区域的连续性,表明该变异为真实的谱系特异性非编码扩张。
**3.2 线粒体与形态系统发育揭示Zhengitettix transpicula位置的强烈不一致**
基于线粒体数据集(13 PCGs + 2 rRNAs)的ML和BI分析得到相同拓扑结构。Z. transpicula未被置于其他Zhengitettix种附近,而是靠近Macromotettixoides谱系;而基于92个形态特征的分析将Z. transpicula与Z. triangularis恢复为姊妹关系(bootstrap支持率94),形成了直接的线粒体-形态冲突。
**3.3 跨数据集比较与Zhengitettix transpicula线粒体位置的验证**
将线粒体树分别与形态树和已发表的核单拷贝直系同源树进行缠绕图比较。核树(1962个位点,所有节点100% bootstrap支持)不支持Zhengitettix与Macromotettixoides的关联,与形态树一致。对Z. transpicula线粒体基因组的验证表明:HiFi读段映射平均深度1111.2×,无覆盖断裂;独立组装比对显示99.9%的配对一致性;核基因组BLASTN筛选识别出51个NUMT样片段,但无单个接近完整线粒体拷贝,证实该线粒体基因组非NUMT假基因。因此线粒体位置异常非组装错误,而是生物学上的核-线粒体不一致。
**讨论与结论**:
研究讨论了线粒体基因组在昆虫分类中的局限性,特别指出在蚱科中,尽管线粒体系统发育对许多关系提供强支持,但Z. transpicula的线粒体位置与形态和核证据的强烈冲突表明,线粒体信号可能因基因渗入、线粒体捕获或不完全谱系分选而产生误导。技术人员通过独立验证排除了组装假象,认为最可能的解释是历史基因渗入导致的核-线粒体不一致。研究强调,在分类复杂的昆虫类群中,线粒体系统发育需与核基因组和形态学证据整合解读,不能单独用于属级分类变动。研究结论翻译如下:总之,四个新组装的线粒体基因组扩展了蚱科的基因组资源,并揭示了trnS2
UCN-nad1区域先前未充分认识的结构变异。线粒体系统发育为许多关系提供了强分辨率,但将Zhengitettix transpicula置于一个与形态学和核单拷贝直系同源均冲突的位置。基于原始HiFi读段的独立验证确认此冲突不太可能源于线粒体组装错误。最合理的解释是真正的核-线粒体不一致,可能由基因渗入、线粒体捕获、不完全谱系分选或未解决分类复杂性引起。未来工作应增加Zhengitettix及相关属的取样,每物种纳入多个个体,并利用全基因组核数据检验不一致线粒体信号的起源。这类整合方法对于将线粒体基因组资源转化为蚱科及其他昆虫类群可靠的分类和进化结论至关重要。