编辑推荐:
挪威红牛(NR)作为挪威主要奶牛品种,长期依赖赫里福德牛的单体型折叠(pseudohaploid)参考基因组,限制了品种特异性变异及单体型信息的解析。本研究利用长读长测序(PacBio HiFi + ONT)与“家系分型”(trio-binning)技术,成功构建了六套高连续性(N5073.8–88.5 Mb)、高完整性(BUSCO 95.82%–98.11%)且精准分型(Hamming错误率 0.46%–2.52%)的NR单体型解析基因组(NR2025)。该资源首次呈现了NR基因组的完整二倍体结构,并初步揭示了着丝粒区域卫星序列的组织模式,为精准识别NR特异性单倍型和结构变异、提升基因组选择与表型关联分析精度提供了关键工具,有望推动NR奶牛在健康、繁殖力等重要经济性状的遗传改良。
奶牛基因组学研究长期以来面临两大关键问题:一是依赖单一的参考基因组。在挪威红牛(Norwegian Red, NR)这一挪威最主要的奶牛品种中,过往的遗传分析几乎全部基于赫里福德牛(Hereford)的基因组参考序列。这种跨品种的参考基因组存在“参考等位基因偏好”,可能导致NR种群特有的遗传变异被忽略或错误解读。二是参考基因组的“扁平化”缺陷。传统的赫里福德参考基因组是一个“伪单倍体”(pseudohaploid)组装,它将二倍体染色体上来自父母双方的同源染色体片段“挤压”成一条单一的、镶嵌式的序列。这种处理方式抹去了单体型(haplotype)的特异性信息,损失了复杂的结构变异和稀有等位基因,从而影响了下游的基因型-表型关联分析和等位基因特异性表达研究的准确性。为了解决这些瓶颈,并为NR牛的精准育种提供更为坚实的基因组学基础,一项旨在构建NR品种特异性、单体型解析基因组的研究应运而生。
研究人员利用前沿的长读长测序技术,结合创新的“家系分型”(trio-binning)算法,成功构建了六套全新的、单体型解析的NR基因组组装,命名为NR2025。这项研究近期发表在《Animal Genetics》期刊上。
本研究采用了几个关键技术方法:首先,研究团队选择了三个NR家系(母本、父本、后代),以最大化遗传多样性。对父母本使用Illumina短读长测序,对后代个体则联合使用PacBio高保真(HiFi)和牛津纳米孔(ONT)长读长测序平台。核心组装步骤采用Hifiasm软件的trio-binning功能,利用父母本的短读长数据对后代的HiFi和ONT长读长数据进行单体型分离和从头组装。组装后,使用RagTag工具,以无间隙的NR参考基因组(NRF)为参照,将重叠群(contig)支架到染色体水平。组装质量通过BUSCO评估完整度,通过Merqury进行k-mer分析评估碱基质量和单体型分离准确性,并通过minimap2和syri进行基因组间比对以识别结构变异。最后,利用blastn定位牛卫星序列,以描绘着丝粒结构。
3.1 测序产出
对三个NR家系的DNA进行了测序,为父母本生成了覆盖度28–42×的Illumina短读长数据,为后代个体生成了覆盖度39–45×的PacBio HiFi数据和53–58×的ONT长读长数据。ONT测序的最大读长达到500–600 kb,为后续的高连续性组装奠定了基础。
3.2 组装质量、连续性与完整性
利用trio-binning方法,成功从后代长读长数据中组装出六套单体型:NR2025_1P、NR2025_1M、NR2025_2P、NR2025_2M、NR2025_3P和NR2025_3M。在重叠群水平,每个单倍体基因组包含619–1380个重叠群,序列大小为3.08–3.19 Gb,重叠群N50达到73.8–88.6 Mb。在参考基因组支架后,形成了染色体水平的组装。所有NR2025组装的共识质量值(QV)接近70,k-mer完整度在94.3%–96.1%之间,BUSCO评分在95.82%到98.11%之间,显示出高碱基准确度和基因完整性。研究也指出,在低杂合度区域,存在单体型被错误“挤压”的现象,并且在父本X染色体组装中发现了因单体型特异性k-mer(hapmer)覆盖度低而导致的组装错误,这是单体型解析组装中的常见挑战。
3.3 单体型分离的准确性
通过将源自父母本短读长的hapmer映射到NR2025组装上,评估了单体型分离的准确性。结果显示,母本hapmer主要定位在母本单体型组装上,父本hapmer主要定位在父本单体型组装上,证明了单体型被成功分离和组装。全局汉明错误率(错误分配至对侧单体型的hapmer比例)在0.46%到2.52%之间,其中第一对单体型组装(来自后代1)的错误率更低,这可能与其HiFi读长更长有关,有助于在组装图中进行更准确的局部单体型分离。
3.4 着丝粒和端粒区域的表征
通过对NR2025组装之间进行比对,发现大部分非同源(non-syntenic)区域和较大的结构重排位于自染色体的起始端,这与牛染色体为具近端着丝粒(acrocentric)且着丝粒位于末端的高度重复序列特征相符,表明NR2025组装已成功跨越了着丝粒区域。为深入表征着丝粒组成,研究人员将牛卫星序列映射到NR2025组装上。在大多数自染色体(22-27条)的前25 Mb内,均观察到卫星序列的富集。这些卫星序列并非随机分布,而是倾向于聚集成由一或两种串联重复单元构成的高阶重复(HOR)结构。研究发现,174条自染色体中的130条可以根据着丝粒上卫星的一般排列顺序,被归纳为十种主要的着丝粒组织类别。其中,SATI通常出现在SATIII + SAT1.711a的上游,而SATIV则出现在着丝粒的远端,位于SATIII + SAT1.711a的上游。X特异性卫星单元仅在BtaX染色体中被检测到,证实了所有NR2025 X染色体中着丝粒(为中间着丝粒,metacentric)的成功组装。在端粒方面,对端粒重复序列(TTAGGG)的计数显示,大多数自染色体(15-22条)在非着丝粒一端包含一段端粒重复序列区域,但仅有一条染色体(Bta15, NR2025_1P)和一条X染色体(NR2025_3M)显示出从端粒到端粒(T2T)完整组装的证据,表明在实现完整的T2T组装方面仍需进一步努力。
本研究成功构建了NR2025——一套包含六个单体型解析的挪威红牛品种特异性基因组组装。这是首次以非折叠形式呈现NR二倍体基因组的重要资源。单体型解析对于捕获基因组间真实的结构变异谱系至关重要,能够实现更精确的因果变异鉴定。尽管先前研究多利用高杂合度的杂交个体进行单体型组装,但本研究表明,利用NR父母本的短读长数据中所含的单体型特异性信息,足以成功组装后代的双方单体型。
NR2025组装显著提升了对高度重复的着丝粒区域的解析。大多数自染色体的近端着丝粒在组装中得到呈现,提供了目前对NR牛自染色体着丝粒结构的最佳概览。对牛卫星序列的映射揭示了着丝粒由形成HOR结构的卫星单元簇构成,并遵循特定的组织模式。由于着丝粒功能对基因组稳定性、繁殖力和发育至关重要,对牛着丝粒组成和组织的详细表征,将有助于深入理解如罗伯逊易位等染色体异常现象,为探究着丝粒结构对牛繁殖力和健康性状的影响提供了宝贵起点。
NR2025这套单体型解析组装集合,为构建挪威红牛的“泛基因组”(pangenome)奠定了独特基础。单个线性参考基因组在检测大型复杂变异和与参考序列差异显著的变异方面存在局限,而泛基因组能够代表所包含组装的全部遗传变异范围。其基于图(graph-based)的结构保留了组装中的全基因组单体型信息,可通过单体型感知的序列比对实现更准确的基因分型。将NR2025组装集合整合入一个共同的泛基因组,并进一步扩充更多单体型,将能捕获NR牛群中全部的遗传变异谱。因此,NR泛基因组将成为识别和关联NR群体中感兴趣表型与新型结构变异的关键资源,最终提升对奶牛健康、繁殖力等重要经济性状的遗传选择效能。