《Molecular Ecology Resources》:De Novo Genome Assemblies of Four Rainbow Trout Genetic Lines Reveal Structural Variants in Pursuit of a Pangenome Reference
编辑推荐:
摘要:虹鳟(Oncorhynchus mykiss)表现出由驯化、生活史及地理起源塑造的广泛基因组多样性。为推进综合性泛基因组(pangenome)参比资源的开发,研究人员提出了两个遗传与生态背景迥异的品系——Whale Rock(WR;野生、湖泊闭锁、加州中
摘要:虹鳟(Oncorhynchus mykiss)表现出由驯化、生活史及地理起源塑造的广泛基因组多样性。为推进综合性泛基因组(pangenome)参比资源的开发,研究人员提出了两个遗传与生态背景迥异的品系——Whale Rock(WR;野生、湖泊闭锁、加州中部)和Keithley Creek(KC;野生、定居型、哥伦比亚河流域内陆)——的全新世(de novo)基因组组装,并结合已发表的Arlee(驯化型,北加州)和Swanson(半驯化型,定居型,阿拉斯加)品系组装。所有组装均近乎完全覆盖已知基因(BUSCO 95.8%–99.7%),基因组大小相近(约2.3 Gb),支架N50介于3.4 Mb(KC)至52.4 Mb(Swanson)之间。全基因组比对显示各组装间序列高度保守(一致性97%–98%),但同时存在大量长度≥50 bp的结构变异(structural variant, SV)。SV分析鉴定出数万个缺失、插入及复杂重排,主要位于非编码序列。初步评估多套de novo组装的效用发现,两株驯化品系(Arlee和Swanson)共享富集于生长、繁殖及驯化适应相关基因(如GTP结合、ECM-受体相互作用)的SV;而两株野生来源品系(WR和KC)共享与繁殖时序(如GnRH信号通路)相关的SV。Arlee和WR还分别具有与其地理起源及独特生活史潜在相关的特有SV。此外,研究人员在关键区段(如Omy17上肉产量QTL及Omy25q上性成熟关联的six6/erβ-gphb5位点)鉴定到SV,提示研究复杂性状基因组学时需考量SV。综上,这些组装及比较分析奠定了虹鳟泛基因组参比的基础,阐明其可用于揭示O. mykiss驯化、适应及其他复杂性状的结构基因组基础。
论文解读:四尾虹鳟遗传品系De Novo基因组组装与结构变异及泛基因组奠基研究
研究背景与立题依据
虹鳟(Oncorhynchus mykiss)作为全球重要养殖鱼类及生态进化模式种,因人工选育种化、自然地理隔离及不同生活史(如溯河型steelhead与淡水定居型)产生了显著基因组与生态多样性。既往研究多依赖单倍型参比基因组结合SNP或小片段INDEL分析,忽略了≥50 bp的大型结构变异(structural variant, SV)——后者在其它物种中已被证实驱动表型(如洄游生态型、形态适应)。已有的Swanson与Arlee参比基因组虽质量较高,但无法全面代表该物种因地理隔离、驯化及局域适应演化出的遗传多样性。为捕捉更完整的种内基因组图谱并探究SV在驯化、适应及复杂性状(肉产量、性成熟等)中的作用,研究人员开展了四份具代表性遗传品系(两新品系WR、KC+两已发表品系Arlee、Swanson)的染色体级de novo组装与比较基因组学研究,该成果发表于《Molecular Ecology Resources》。
主要关键技术方法
研究对象为四个虹鳟遗传品系:Arlee(驯化,2N=64,双倍单倍体doubled haploid, DH)、Swanson(半驯化,2N=58,DH)、WR(野生湖泊闭锁钢头鱼,加州海岸,2N=64,DH)及KC(野生内陆红带鳟,哥伦比亚河盆地,2N=60,由雄核发育诱导但提示可能存在意外母源贡献)。WR基因组采用PacBio CLR + HiFi长读段测序、Canu contig组装、Bionano光学图谱与Hi-C scaffolding及连锁图谱染色体挂载;KC为杂合二倍体采用PacBio HiFi + Hifiasm分型组装后Hi-C scaffolding及连锁图谱挂载。用Merqury进行k-mer评估,Liftoff进行基因注释转移(以Arlee为参比),MUMmer + SyRI进行全基因组双序列比对与SV(≥50 bp)识别与注释,SnpEff/SnpSift进行功能影响过滤,ShinyGO做基因富集分析(GO),并用SVIM/Sniffles2基于长读段比对独立验证SV,最后针对已报道的生活史关联区段(Omy28、Omy25q)及肉产量QTL(Omy17)做跨组装比对与覆盖度分析。
研究结果
3.1 De Novo Genome Assemblies(全新世基因组组装)
四套组装总长约2.3 Gb,GC含量43.5%,BUSCO完整度达98.9%–99.9%。WR(USDA_OmykWR_1.0)含32条染色体,scaffold N50为50.8 Mb;KC(USDA_OmykKC_1.0)含30条染色体,scaffold N50为3.4 Mb(较碎片化成因:35×覆盖度、杂合个体及HiFi contig策略)。Arlee与Swanson分别具最高contig N50(15.6 Mb)与scaffold N50(52.4 Mb)。Merqury分析显示WR为典型DH纯合峰,KC呈双峰暗示残余杂合/潜在母源渗入。结论:四套染色体级组装质量高且互补,覆盖了海岸与内陆谱系、驯化与野生的核型(2N=58–64)及遗传背景差异,适合作为泛基因组基石。
3.2 Intronic and Intergenic SVs Dominate the Landscape Across the Rainbow Trout Lines(内含子及基因间SV主导虹鳟品系间SV分布格局)
以Arlee为参比,SyRI在全基因组比对中鉴定出各品系间数万条插入、缺失及复杂重排(Swanson因含Omy05大片段倒位及Omy04/Omy14/Omy25染色体臂裂变而SV计数偏高)。>89% SV为MODIFIER影响(位于内含子~42.8%–46.9%、基因间区~17%),仅少数具HIGH影响(~4.7%–6.2%)。结论:虹鳟品系间SV广泛存在但以非编码区为主,与已知短读段SV研究结果一致,提示SV更多通过调控/剪接而非直接破坏编码区发挥作用。
3.3 Long-Reads Mapping–Based SVs Validation(基于长读段比对的SV验证)
将assembly-based(MUMmer/SyRI)检出的SV与PacBio长读段mapping-based(SVIM+Sniffles2)独立检出SV取交集,WR有98.7%(简单重叠)及54.87%(严格互叠≥50%)获支持;KC分别为77.1%和52.86%。小SV(50–500 bp)验证率相当。结论:组装法检出的SV获正交证据支持,WR更高验证率与其高纯度DH及组装连续性相符,表明高质量de novo组装可稳健探测SV。
3.4 Comparative Structural Rearrangement and Sequence Variant Profiles Between the Rainbow Trout Lines(虹鳟品系间结构重排与序列变异比较谱)
按驯化史与生活史分组比较:(1) Arlee与Swanson共有但WR/KC缺失的共线性区块涉及GTP结合、ECM-受体相互作用通路基因,或与生长及驯化适应相关;(2) Arlee特有未比对区(NOTAL)及相对于WR参比的特有SV富集粘着斑(Focal adhesion)、MAPK信号、ECM-受体互作等通路,暗示人工选择下保留的结构基因组改变;(3) WR与KC共有但驯化品系缺失区及SV富集钙信号、MAPK、神经活性配体-受体互作、GnRH信号通路,指向野生型环境感应与繁殖时序调控;(4) WR特有未比对区及SV富集光转导、VEGF信号、MAPK、粘着斑及肾上腺素能信号,可能关联其湖泊闭锁steelhead祖先的渗透压调节、长距离巡游及洄游生理基础。结论:品系/谱系特异性SV倾向于富集于与驯化性状(生长、生殖)或野生适应(环境感知、繁殖时机、洄游生理)相关的保守信号通路。
3.5 Exploring the Overlap Between Identified SVs and QTLs for Muscle Yield(鉴定SV与肌肉产量QTL重叠探索)
Arlee参比下KC与WR在Omy17肉产量QTL区间存在约7 Mb倒位(Swanson与Arlee无此倒位)。该倒位区间内含st3gal2、cox6c1、pck1、cyp24a1等代谢与应激相关基因。结论:Omy17倒位属野生品系共有SV且与已定位肉质产量QTL共定位,提示大型SV可能参与经济性状的遗传架构。
3.6 Exploring Structural Variation in Loci Associated With Life History Traits(生活史性状关联位点中SV探索)
已报道洄游时机关联区(Omy28,含greb1l/rock1基因间及内含子)见品系间INDEL;成熟年龄/重复产卵关联区(Omy25q,含six6上游及erβ-gphb5位点)显示复杂的INDEL、拷贝数变异(CNV)及Arlee独有区段。短读段GWAS所依SNP无法捕获此类结构差异。结论:关键生活史性状关联区存在组装间结构歧异,泛基因组参比有助于避免单参考基因组导致的变异遗漏。
讨论与结论翻译
本研究通过对四个遗传背景各异虹鳟品系的de novo基因组组装与比较,揭示普遍存在且具品系特异模式的长度≥50 bp结构变异(缺失、插入及复杂重排),其关联基因显著富集于生长、繁殖及环境适应相关通路,暗示SV在种内表型分化中的作用。关键区段(Omy17肉产量QTL及Omy25q上six6/erβ-gphb5性成熟关联区)检出的SV凸显其在虹鳟复杂性状遗传学中的重要性。结果表明,高质量品系特异性全基因组组装能较完整呈现种内遗传多样性,本研究奠定的虹鳟泛基因组(pangenome)参比基础将推动后续对O. mykiss驯化、适应及其它复杂性状结构基因组基础的解析及功能性验证研究,并指出未来需纳入更多具不同生活史或目标性状的de novo组装以完善泛基因组框架。