《Scientific Data》:Near complete telomere-to-telomere level genome assembly of blackchin tilapia (Sarotherodon melanotheron)
编辑推荐:
本研究针对黑边罗非鱼(Sarotherodon melanotheron)基因组研究匮乏、分子育种受限的问题,整合短读长、PacBio HiFi、ONT ultra-long及Hi-C技术,完成了其近完整端粒到端粒(T2T)水平基因组组装。该组装大小为996.95 Mb,挂载至22条染色体,包含29,328个注释基因,BUSCO完整性达98.36%,为解析其广盐性机制及遗传改良提供了关键资源。
在生命科学的“读码”竞赛中,科学家们已经破解了从人类到小鼠的众多生命蓝图,但面对一些具有独特生存绝技的物种,我们的认知仍存在大片空白。黑边罗非鱼(Sarotherodon melanotheron)便是这样一位“水中忍者”。这种鱼类拥有令人惊叹的广盐性(euryhaline)能力,能在淡水、咸水甚至超盐水中自由穿梭并茁壮成长,这种强大的渗透压调节机制背后隐藏着怎样的基因秘密?遗憾的是,由于缺乏高质量的基因组参考序列,科学家们一直难以在分子层面“拆解”这套生存系统,严重阻碍了对其优良性状的遗传改良研究。为了填补这一空白,一项发表于《Scientific Data》的研究利用前沿测序技术,成功绘制了黑边罗非鱼的近完整端粒到端粒(Telomere-to-Telomere, T2T)水平基因组图谱,为揭开其生理奥秘提供了关键“说明书”。
技术路线:多技术联手的“拼图”策略
研究团队并未依赖单一技术,而是采用了多平台数据整合的“组合拳”策略,以确保基因组组装的准确性与完整性。首先,他们获取了黑边罗非鱼的样本(研究未具体披露野生或养殖队列来源),随后同步开展了短读长测序、高精度PacBio HiFi长读长测序、Oxford Nanopore Technologies (ONT) 超长读长测序以及Hi-C(高通量染色体构象捕获)技术。这套方案中,HiFi长读长负责提供高准确度的局部序列,ONT超长读长负责跨越复杂的重复区域,Hi-C数据则负责将 scaffolds 精准地锚定到染色体水平,最终通过生物信息学工具进行基因注释和重复序列分析。
研究结果
基因组组装与质量评估
研究人员成功获得了大小为 996.95 Mb 的基因组组装,其 scaffold N50 达到了 42.04 Mb,显示出极高的连续性。更重要的是,通过 Hi-C 技术,99.38% 的组装序列被成功挂载到了 22 条染色体上,构建了染色体水平的参考基因组。利用 BUSCO(Benchmarking Universal Single-Copy Orthologs)系统进行评估,结果显示该基因组的完整性高达 98.36%,证明这是一个近乎完整的基因组图谱。
重复序列与基因注释
在对基因组“暗物质”的挖掘中,研究共鉴定出 391.75 Mb 的重复序列元件,约占基因组的 39.29%,这一比例符合脊椎动物基因组的典型特征。在基因结构解析方面,研究预测出 29,328 个蛋白质编码基因,其中高达 92.10% 的基因获得了功能注释。对这些基因集进行 BUSCO 评估,完整性得分高达 99.22%,进一步验证了基因预测的可靠性。
结论与意义
这项研究产出的黑边罗非鱼高质量 T2T 水平基因组组装,不仅解决了该物种基因组资源缺失的燃眉之急,更具有多重深远意义。其一,它为在单碱基分辨率下解析黑边罗非鱼广盐性、耐寒性等关键经济性状的分子机制奠定了坚实基础,使科学家能够精准定位与性状相关的基因位点。其二,该基因组作为重要的遗传资源,极大地促进了群体遗传学和保护基因组学的研究,有助于评估野生种群的遗传多样性。其三,这份高质量的“基因地图”将直接服务于分子育种(Molecular Breeding)实践,通过标记辅助选择或基因组选择技术,加速培育具有优良性状(如快速生长、高抗逆性)的新品种,推动水产养殖业的可持续发展。