今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

微生物组数据hub:一个开放访问的平台,整合了环境元数据、分类信息和功能注释,用于处理全面的宏基因组组装基因组数据集

《Microbiome》:Microbiome Datahub: an open-access platform integrating environmental metadata, taxonomy, and functional annotation for comprehensive metagenome-assembled genome datasets

【字体: 大 中 小 】 时间:2026年03月18日 来源:Microbiome 12.7

编辑推荐:

  摘要背景组装的宏基因组(MAGs)为我们提供了关于未培养微生物基因组多样性的重要见解。然而,存储在公共仓库(如INSDC)中的MAG数据集往往难以重复使用,因为这些数据集的质量参差不齐,分类学和功能注释不一致,且环境元数据的管理也不完善。尽管有MGnify、IMG/M和SPIRE

  

摘要

背景

组装的宏基因组(MAGs)为我们提供了关于未培养微生物基因组多样性的重要见解。然而,存储在公共仓库(如INSDC)中的MAG数据集往往难以重复使用,因为这些数据集的质量参差不齐,分类学和功能注释不一致,且环境元数据的管理也不完善。尽管有MGnify、IMG/M和SPIRE等二级MAG数据库提供了标准化资源,但它们是从公共宏基因组读取数据重新构建MAG的,因此并不能代表出版物中报告的原始MAG。

结果

为了解决这一问题,我们开发了Microbiome Datahub,这是一个开放访问平台,它系统地收集并重新注释了来自INSDC的原始MAG数据。我们收集了214,427个MAG,使用DFAST预测基因,通过CheckM进行质量评估,利用GTDB-Tk标准化分类学归属,使用Bac2Feature推断27种表型特征,通过PZLAST将蛋白质分配到MBGD直系群和KEGG同源群中,并使用宏基因组和微生物环境本体(Metagenome and Microbes Environmental Ontology)对环境元数据进行注释。在这些MAG中,平均完整性为80.5%,污染率为1.8%;值得注意的是,最常见的值是完整性大于95%、污染率小于1%,表明大多数MAG的质量较高。比较分析显示,Microbiome Datahub提供了在系统发育和环境上都具有多样性的MAG:虽然其中大多数来自脊椎动物肠道环境,但也有大量MAG来自其他栖息地,例如地下水,其中包含近10,000个来自Patescibacteria的MAG。通过对27种表型特征(包括最适生长温度)的推断,进一步揭示了不同门之间的生态差异。蛋白质聚类结果显示有5600万个40%同源性的簇,其中大多数与MGnify和GlobDB的结果不同,约19%的蛋白质未归属于任何MBGD直系群,这突显了它们的新颖性。

结论

Microbiome Datahub整合了MAG基因组序列、基因和蛋白质预测结果、质量指标、环境和分类学注释、直系群分配以及表型预测,并通过网页界面、API和批量下载方式提供这些数据。通过将原始MAG与经过整理的元数据和功能注释结合起来,Microbiome Datahub成为一个全面且可重复使用的资源,将加速微生物组学和微生物基因组学研究。

视频摘要

背景

组装的宏基因组(MAGs)为我们提供了关于未培养微生物基因组多样性的重要见解。然而,存储在公共仓库(如INSDC)中的MAG数据集往往难以重复使用,因为这些数据集的质量参差不齐,分类学和功能注释不一致,且环境元数据的管理也不完善。尽管有MGnify、IMG/M和SPIRE等二级MAG数据库提供了标准化资源,但它们是从公共宏基因组读取数据重新构建MAG的,因此并不能代表出版物中报告的原始MAG。

结果

为了解决这一问题,我们开发了Microbiome Datahub,这是一个开放访问平台,它系统地收集并重新注释了来自INSDC的原始MAG数据。我们收集了214,427个MAG,使用DFAST预测基因,通过CheckM进行质量评估,利用GTDB-Tk标准化分类学归属,使用Bac2Feature推断27种表型特征,通过PZLAST将蛋白质分配到MBGD直系群和KEGG同源群中,并使用宏基因组和微生物环境本体(Metagenome and Microbes Environmental Ontology)对环境元数据进行注释。在这些MAG中,平均完整性为80.5%,污染率为1.8%;值得注意的是,最常见的值是完整性大于95%、污染率小于1%,表明大多数MAG的质量较高。比较分析显示,Microbiome Datahub提供了在系统发育和环境上都具有多样性的MAG:虽然其中大多数来自脊椎动物肠道环境,但也有大量MAG来自其他栖息地,例如地下水,其中包含近10,000个来自Patescibacteria的MAG。通过对27种表型特征(包括最适生长温度)的推断,进一步揭示了不同门之间的生态差异。蛋白质聚类结果显示有5600万个40%同源性的簇,其中大多数与MGnify和GlobDB的结果不同,约19%的蛋白质未归属于任何MBGD直系群,这突显了它们的新颖性。

结论

Microbiome Datahub整合了MAG基因组序列、基因和蛋白质预测结果、质量指标、环境和分类学注释、直系群分配以及表型预测,并通过网页界面、API和批量下载方式提供这些数据。通过将原始MAG与经过整理的元数据和功能注释结合起来,Microbiome Datahub成为一个全面且可重复使用的资源,将加速微生物组学和微生物基因组学研究。

视频摘要

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:宏基因组数据整合|Microbiome Datahub|MAG质量评估|分类学注释标准化|环境元数据|表型特征预测

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号