黑曲霉ATCC 1015是一种用于生产柠檬酸的工业菌株(
1)。在这里,我们展示了该菌株的新混合基因组组装结果,其连续性优于之前的版本(
2、
3)。这一资源增强了遗传基础,支持了生物技术应用的菌株工程研究。 黑曲霉ATCC 1015于2025年4月从Westerdijk真菌生物多样性研究所(CBS 113.46)获得,在测序前在最小培养基(1.5%琼脂、1%葡萄糖、1× ASPA + N、0.002 M MgSO?和1×微量元素溶液
4)中传代两次。分生孢子被接种到含有0.5 g/L酪蛋白胨、2.5 g/L酵母提取物、1%葡萄糖、1× ASPA + N、0.002 M MgSO?和1×微量元素溶液的完整培养基中
4,并在30°C下以150 rpm的速度振荡培养16小时。收获菌丝体后,使用40 mg/mL的VinoTaste(诺维信公司,丹麦Bagsv?rd)裂解酶在含有山梨醇、MES和CaCl?的缓冲液中制备原生质体
4,并在37°C下培养2.5小时。原生质体随后被重新悬浮在Zymo DNA/RNA Shield(Zymo Research公司,美国Irvine)中。
黑曲霉ATCC 1015的原生质体被送往Plasmidosaurus公司,使用Oxford Nanopore Technology(ONT)和Illumina平台进行DNA提取和定制测序。基因组DNA使用Monarch Genomic DNA Purification Kit(新英格兰生物实验室,美国)进行纯化,过程中未进行剪切或大小筛选。Nanopore文库(v14化学体系;标签化)使用SQK-RBK114.96试剂盒(Oxford Nanopore Technologies公司,英国)制备,并在PromethION 24平台上使用两个R10.4.1流式细胞仪进行测序。碱基调用使用Guppy v6.4.6(Oxford Nanopore Technologies公司;超精确模式,Q ≥ 10)完成,接头和条形码使用MinKNOW(Oxford Nanopore Technologies公司)进行修剪,总共获得521,857条读段(243,482条读段,N50为9,597 bp;278,375条读段,N50为9,419 bp)。Illumina文库使用Illumina DNA Prep试剂盒(Illumina公司,美国)制备,并在NextSeq 2000平台上以双端读段形式进行测序(2 × 150 bp),生成2850万对读段。首先使用human参考基因组GRCh38.p13
5对ONT读段(使用minimap2 v2.30
6)和Illumina读段(使用bwa v0.7.19
7)进行去污染处理)。未映射的ONT读段和Illumina读段对使用samtools v1.22.1
8提取。最后,ONT读段使用seqkit v2.10.1
9去重,使用filtlong v0.3.0
https://github.com/rrwick/Filtlong进行质量过滤(保留长度≥3 kb的读段),Illumina读段使用fastp v1.0.1
10进行接头修剪和质量/长度筛选(Q ≥ 20,长度≥50 bp)。 黑曲霉ATCC 1015的混合基因组使用Flye v2.9.6在nano-hq模式下
从头组装,估计基因组大小为36 Mb(基于Nanopore读段构建支架),并使用Pilon v1.24
11结合Illumina读段进行优化。组装质量使用QUAST v5.3.0
12和BUSCO v5.7.1
13以及ascomycota_odb10谱系数据集进行评估,BUSCO完整性达到99.6%。该基因组由9个contig组成(包括线粒体基因组),其中核基因组由8条染色体组成,长度为35,617,925 bp(N50为4,304,314 bp;GC含量为49.59%),以及一条31,333 bp的线粒体DNA。所有染色体级别的contig都以TTTAGGG基序终止,这是典型端粒重复序列TTAGGG的延长变体,也存在于如
Chlamydomonas reinhardtii等藻类中
14。Nanopore读段的测序覆盖率为59倍,Illumina读段的测序覆盖率为197倍。
线粒体contig的注释采用了参考引导的、手动策划的方法,结合了exonerate v2.4.0(针对
Aspergillus flavus蛋白的protein2genome模型
15)、tRNAscan-SE v2.0.12
16(用于tRNA)和Infernal cmscan(Rfam)v1.1.5(用于rRNA);特征使用AGAT v1.5.1
17合并。核基因组使用funannotate v1.8.17
18进行注释,包括重复序列屏蔽、使用Augustus
19(
Aspergillus nidulans模型)进行基因预测,以及使用eggNOG-mapper v2.1.13
20进行功能注释,共鉴定出11,387个蛋白质编码基因。Liftoff v1.6.3
21用于将特征从Aspni5组装结果
2转移过来,然后使用gffcompare v0.12.10
22合并注释结果。在此过程中,添加了基于蛋白质ID的别名,并在最终的GFF3文件中将假设的mRNA替换为更详细的基因名称。