利用蛋白质设计实验结果指导生物分子能量函数开发:基于Rosetta的“设计-失败-重训”范式

《PLOS Computational Biology》:Using experimental results of protein design to guide biomolecular energy-function development

【字体: 时间:2026年04月23日 来源:PLOS Computational Biology 3.6

编辑推荐:

  本研究针对Rosetta等经典力场能量函数在蛋白质设计(尤其是疏水核心堆积)中存在“空间位阻冲突(steric clashing)”低估的物理缺陷,创新性地利用深度突变扫描(DMS)实验数据识别设计失败模式,并据此重训能量函数参数,显著提升了模型对天然构象的还原能力,为生物大分子力场开发提供了“从设计失败中学习”的新范式。

  

论文解读

在计算结构生物学领域,Rosetta能量函数一直是蛋白质结构预测与设计的基石工具。然而,尽管深度学习模型在结构预测上取得了突破,Rosetta这类基于物理力场的模型在预测突变效应、设计非标准化学修饰或精确生物分子界面时仍具有不可替代的价值。长期以来,这类能量函数的训练数据主要依赖小分子热力学数据、高分辨率晶体结构和有限的突变自由能数据,导致其物理准确性存在瓶颈,特别是在模拟蛋白质疏水核心的紧密堆积时,往往存在难以察觉的系统性偏差。
本文发表于《PLOS Computational Biology》,提出了一种颠覆性的能量函数开发范式:利用蛋白质设计本身的失败案例来指导力场优化。研究团队没有回避Rosetta设计出的蛋白质在实验中出现的“翻车”现象,而是将其视为宝贵的训练数据。他们通过深度突变扫描(DMS)技术,精准定位了导致设计蛋白不稳定的“罪魁祸首”——空间位阻冲突(Steric Clashing),并据此重新训练了能量函数参数,成功修复了模型对原子过度堆积的误判,显著提升了设计的成功率与准确性。

关键技术方法

研究整合了多源实验数据构建训练与验证集:Rocklin等人发表的数千个迷你蛋白(~40 aa)高通量稳定性数据(含成功与失败设计);本研究新产生的21个“预测稳定但实验不稳定”的异常设计及其单点突变(DMS)稳定性数据;以及17个Rosetta设计蛋白的晶体结构(用于比对计算模型与真实结构的差异)。技术核心包括:酵母表面展示结合蛋白酶消化(Protease Sensitivity Assay)的高通量稳定性筛选、深度突变扫描(DMS)鉴定“拯救突变”(Rescue Mutation)、基于原子接触距离的冲突量化分析,以及针对范德华参数的能量函数重训练(Refitting)。

研究结果解析

1. Sources of experimental data on designs

研究选取了三个关键数据集作为“诊断”能量函数缺陷的试金石。数据集1(Rocklin et al.)提供了大量迷你蛋白设计的稳定性图谱,揭示了Rosetta预测与实验结果的巨大鸿沟。数据集2是本研究的核心贡献之一,针对21个“预测稳定但实验不稳定”的异常设计,进行了全位点单点突变扫描,旨在寻找能“拯救”这些设计的突变。数据集3则是由17个已解析晶体结构的Rosetta设计蛋白构成,用于直观对比计算模型与真实结构的几何差异。

2. Single amino-acid mutations that rescue failed protein designs suggest failure modes

通过DMS实验,研究团队在异常设计中发现了约1%的“拯救突变”(Δ stability score > 1.0)。深入分析这些突变模式,揭示了能量函数的两个主要缺陷:
  • 疏水效应低估:最常见的拯救模式是将极性氨基酸突变为非极性氨基酸(如Tyr→Phe),发生在疏水核心边界,暗示设计算法可能过度限制了疏水埋藏面积。
  • 空间冲突容忍度过高:最关键的发现是存在“大侧链→小侧链”(如Val/Ile→Ala/Gly)的拯救模式。结构分析显示,这些被“缩小”的位点在原始设计中存在严重的原子间距离过近(Clashing)。例如,Val11与Ile21的碳原子与氢原子距离严重短于范德华半径之和。这种“过度堆积”在天然蛋白晶体结构中极为罕见,表明Rosetta能量函数对空间排斥的惩罚不足。

3. Clashes in design models are often absent in corresponding crystal structures

为了验证上述发现,团队对比了17个设计模型与其对应的晶体结构。结果显示,所有晶体结构中的碳-碳原子冲突对数量均比计算模型低约30%。这表明蛋白质在真实折叠时会通过骨架或侧链的重排来规避能量上不可接受的冲突,而Rosetta设计模型则“卡”在了这种高能构象中。这一发现直接证实了能量函数在范德华排斥项上存在系统性偏差。

4. Quantifying and fitting the degree of overpacking

基于上述诊断,研究团队建立了一个量化“过度堆积”的指标,并利用高分辨率天然蛋白晶体结构作为基准,对Rosetta能量函数中的相关参数(主要是范德华项)进行了重训练。重训练后的能量函数在结构精修任务中,几乎完全消除了过度堆积的失败模式,同时在其他标准测试(如小分子结合、突变效应预测)上保持了原有性能。这证明了针对特定物理缺陷进行“精准外科手术式”参数优化的可行性。

结论与意义

本研究成功建立了一个“设计-实验-诊断-重训”的闭环框架,证明了蛋白质设计的失败案例是开发更精确生物分子模型的宝贵资源。通过将实验数据转化为具体的物理缺陷指标(如Steric Clashing),研究人员能够“教会”能量函数如何更好地模拟真实蛋白质的几何约束。这项工作不仅产出了更新、更可靠的Rosetta能量函数版本,更重要的是为计算生物学提供了一种新的迭代开发哲学:不再仅仅依赖有限的天然数据,而是通过主动设计来探索力场的边界,并从失败中学习。这对于未来开发能够处理非标准氨基酸、复杂生物界面的下一代力场具有重要的指导意义。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号