
-
生物通官微
陪你抓住生命科技
跳动的脉搏
蛋白质语言模型嵌入中的系统发育信号分析
《Scientific Reports》:Analysis of phylogenetic signal in protein language model embeddings
【字体: 大 中 小 】 时间:2026年06月19日 来源:Scientific Reports 3.9
编辑推荐:
摘要蛋白质语言模型能够学习氨基酸序列的高维表示,无需显式建模即可捕捉结构、功能及进化信息。在本研究中,我们探讨了是否可以利用这类表示所衍生的距离,在零样本场景下进行系统发育树推断。我们使用PANTHER数据库中的蛋白质家族以及具有可控进化参数的模拟数据集,将基于蛋白质语言模型嵌入
蛋白质语言模型能够学习氨基酸序列的高维表示,无需显式建模即可捕捉结构、功能及进化信息。在本研究中,我们探讨了是否可以利用这类表示所衍生的距离,在零样本场景下进行系统发育树推断。我们使用PANTHER数据库中的蛋白质家族以及具有可控进化参数的模拟数据集,将基于蛋白质语言模型嵌入距离推断出的系统发育树与通过传统系统发育分析技术推断出的树,以及基于变换器模型并在显式进化模型下训练得到的距离预测器所推断出的树进行比较。研究结果表明,在零样本场景下,当序列用固定大小的向量表示时,系统发育信号会大量丢失,从而导致树的结构和分支长度难以准确恢复。而通过对对齐后的残基级嵌入计算累积距离,能显著提高拓扑结构的准确性,尤其是对于考虑多序列比对信息的模型而言,其性能甚至可媲美那些专为系统发育树推断而训练的模型。不过,蛋白质语言模型嵌入空间中的距离并不能可靠地反映进化过程中的分支长度。