今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

蛋白质语言模型嵌入中的系统发育信号分析

《Scientific Reports》:Analysis of phylogenetic signal in protein language model embeddings

【字体: 大 中 小 】 时间:2026年06月19日 来源:Scientific Reports 3.9

编辑推荐:

  摘要蛋白质语言模型能够学习氨基酸序列的高维表示,无需显式建模即可捕捉结构、功能及进化信息。在本研究中,我们探讨了是否可以利用这类表示所衍生的距离,在零样本场景下进行系统发育树推断。我们使用PANTHER数据库中的蛋白质家族以及具有可控进化参数的模拟数据集,将基于蛋白质语言模型嵌入

  

摘要

蛋白质语言模型能够学习氨基酸序列的高维表示,无需显式建模即可捕捉结构、功能及进化信息。在本研究中,我们探讨了是否可以利用这类表示所衍生的距离,在零样本场景下进行系统发育树推断。我们使用PANTHER数据库中的蛋白质家族以及具有可控进化参数的模拟数据集,将基于蛋白质语言模型嵌入距离推断出的系统发育树与通过传统系统发育分析技术推断出的树,以及基于变换器模型并在显式进化模型下训练得到的距离预测器所推断出的树进行比较。研究结果表明,在零样本场景下,当序列用固定大小的向量表示时,系统发育信号会大量丢失,从而导致树的结构和分支长度难以准确恢复。而通过对对齐后的残基级嵌入计算累积距离,能显著提高拓扑结构的准确性,尤其是对于考虑多序列比对信息的模型而言,其性能甚至可媲美那些专为系统发育树推断而训练的模型。不过,蛋白质语言模型嵌入空间中的距离并不能可靠地反映进化过程中的分支长度。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:蛋白质语言模型|系统发育树推断|零样本学习|累积距离|分支长度估计|多序列比对

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号