《PLOS Computational Biology》:A multiscale, Bayesian inference approach to augment mechanistic models of cell signaling with machine-learning predictions of binding affinity
编辑推荐:
计算模型在系统生物学中通常处于欠定状态,即相对于模型的复杂度和规模而言,可用数据十分有限。这种数据匮乏主要源于研究人员观察特定生物学系统的能力存在局限,从而制约了计算模型的实用性。为降低这种不确定性,近期研究探索了利用机器学习模型的预测结果来增强系统生物学模型
计算模型在系统生物学中通常处于欠定状态,即相对于模型的复杂度和规模而言,可用数据十分有限。这种数据匮乏主要源于研究人员观察特定生物学系统的能力存在局限,从而制约了计算模型的实用性。为降低这种不确定性,近期研究探索了利用机器学习模型的预测结果来增强系统生物学模型的参数推断。此类方法拓展了可用于推断问题的数据池。本研究中,研究人员探究了细胞内信号转导模型的参数推断增强策略。选择信号转导作为研究对象的原因在于:蛋白质动力学等关键变量的实验测量仍存在较大局限。为此,研究人员提出了一种多尺度贝叶斯推断方法,将传统信号转导数据与结合亲和力(binding affinity)的预测值相结合。这些预测值通过机器学习流程生成,以通用蛋白质资源数据库(Universal Protein Resource, UniProt)中的氨基酸序列测量数据或蛋白质数据库(Protein Data Bank, PDB)中的蛋白质结构测量数据作为输入。研究发现,利用该框架可成功将这些测量数据整合至推断问题中,且这种整合显著改善了信号转导模型的参数估计。进一步地,研究人员证明这种改善对信号转导预测的影响程度取决于预测结果对参数值扰动的敏感性。总体而言,该研究建立的框架通过成功桥接蛋白质序列、结构数据与系统水平信号转导信息,提升了细胞内信号转导模型的参数推断质量。
本研究聚焦于利用蛋白质氨基酸序列和三维结构数据增强细胞内信号转导模型的参数推断这一核心问题。当前,系统生物学计算模型普遍面临欠定问题:模型复杂度与参数数量远超可用实验数据的约束能力,导致参数估计存在显著不确定性,进而限制模型的预测准确性与实际应用价值。传统参数推断主要依赖蛋白质浓度的时序测量数据,但这些数据往往稀疏、仅为相对浓度且伴有噪声。与此同时,蛋白质结构和序列信息因尺度差异未能有效整合进动态信号转导模型 versus 模型的参数估计。近年来机器学习技术的突破,特别是蛋白质结构预测和结合亲和力预测模型的发展,为跨尺度数据融合提供了技术可能。然而,将序列/结构数据转化为适用于常微分方程(Ordinary Differential Equations, ODE)模型参数推断的形式仍面临挑战。基于此,研究人员在《PLOS Computational Biology》发表了这项研究,旨在建立一种多尺度概率推断框架,以拓宽细胞信号转导模型参数估计可利用的数据类型,提升模型的生物学准确性和预测稳健性。
研究人员采用的关键技术方法包括以下方面:(1)机器学习结合亲和力预测流程:整合AlphaFold 3深度学习模型进行蛋白质复合物结构预测,以及PPI-Affinity支持向量机(Support Vector Machine, SVM)回归模型进行结合亲和力(以解离常数K
D表征)预测,形成从序列/结构输入到信号转导模型参数的转换桥梁;(2)贝叶斯参数推断:采用仿射不变系综马尔可夫链蒙特卡罗(Markov-Chain Monte Carlo, MCMC)采样算法,在Julia环境中实现后验分布估计;(3)信息度量:运用库尔贝克-莱布勒(Kullback-Leibler, KL)散度量化数据增强带来的信息增益;(4)局部敏感性分析:采用前向自动微分技术计算模型输出对参数扰动的局部敏感性;(5)模型系统:基于两个已发表的经典ODE模型——含50个参数、23个物种的表皮生长因子受体(Epidermal Growth Factor Receptor, EGFR)信号模型,以及含8个参数、7个物种的G蛋白偶联受体(G-Protein Coupled Receptor, GPCR)信号模型。样本来源方面,EGFR模型的训练与测试数据来自原始文献报告的体外蛋白质动力学实验测量,其中SHC蛋白磷酸化数据作为测试集;GPCR模型沿用原始文献的训练/测试划分,以两种G蛋白数据为训练集、配体结合受体数据为测试集。
研究结果部分,以下按照原文小标题进行阐述:
2.1 细胞信号转导ODE模型:研究人员选取EGFR和GPCR两个ODE模型作为测试案例,前者包含50个参数和23个物种,后者包含8个参数和7个物种。EGFR模型采用质量作用定律与米氏动力学(Michaelis-Menten kinetics)描述蛋白质结合与磷酸化等事件;GPCR模型采用质量作用定律描述蛋白质结合、激活与降解。两模型中分别有18个和2个参数表征9个和1个结合反应。
2.2 数据增强:研究人员将已发表实验数据与预测的K
D值相结合构成增强数据集。预测K
D所需输入包括UniProt的氨基酸序列或PDB的蛋白质结构。EGFR模型以SHC蛋白测量数据为测试集,GPCR模型以配体结合受体数据为测试集。两模型均报告了来源实验或物理界限而非拟合数据的结合参数值,用于验证拟合的前向/反向结合速率常数及K
D预测器。
2.3 机器学习K
D预测流程:研究人员开发了将序列/结构信息转换为信号转导尺度蛋白质浓度的机器学习流程。该流程利用PPI-Affinity SVM回归模型预测蛋白质-蛋白质及蛋白质-肽结合亲和力。当复合物结构不可用时,通过AlphaFold 3基于氨基酸序列预测复合物结构。K
D预测值通过定义K
D=k
off/k
on(解离速率与结合速率之比)与ODE模型参数关联。
2.4 非信息先验上的测试:对10个结合反应的K
D预测表明,机器学习流程的预测显著优于对数均匀分布非信息先验的随机采样。9个使用预测结构的反应中,AlphaFold 3的排名分数(ranking score)与预测误差呈显著负相关,而PPI-Affinity的适用域(Applicability Domain, AD)指标未显示显著关联。
2.5 EGFR与GPCR信号参数推断:数据增强后的贝叶斯后验分布显示,KL散度量化表明序列/结构数据主要增加关于蛋白质解离速率(unbinding rate)的信息,该参数估计的误差显著降低。
2.6 EGFR与GPCR信号预测:测试集预测中,增强方法与基线方法的中位数及90%分位数差异有限,差异未超过实验报告的标准误。但其他非测试输出显示更显著的预测差异,表明数据增强对不同输出的影响具有选择性。
2.7 EGFR测试/训练集划分变化的稳健性:采用留一法更换EGFR测试物种后,参数估计结果在定性和定量上保持一致,KL散度从解离速率到结合速率再到非结合参数递减,解离参数平均绝对误差显著改善。预测性能结果定量一致,但不同输出的中位数预测差异变化表明数据增强对特定实验量的影响存在差异。
2.8 局部敏感性分析:GPCR模型显示预测变化与解离速率扰动的局部敏感性之间存在显著正线性相关,且相关性从解离速率到结合速率再到非结合参数递减。EGFR模型对各参数类型均显示显著正相关,但幅度相近,可能反映较复杂模型中参数间的高阶交互作用。
2.9 先验分布变化的稳健性:增减先验分布上下界一个数量级后,结果定性一致。更信息先验下EGFR测试数据中位预测差异不再超过报告误差;较不信息先验下解离与结合速率的信息增益差异不再显著,但未转化为结合速率平均绝对误差的显著变化。
讨论部分,研究结论翻译如下:
本研究建立了多尺度贝叶斯框架,证明在动态信号转导模型中利用氨基酸序列和蛋白质结构测量数据进行参数推断增强具有可行性。源自UniProt和PDB的序列与结构数据主要增加蛋白质解离速率参数的信息,其一致性体现在:采用更信息或较不信息先验时结果稳健,以及采用不同测试/训练划分时结果一致。这一方法特别适用于约束变化范围较大的解离速率。测试集预测的改善程度取决于输出对解离速率扰动的敏感性,GPCR模型中敏感性分析揭示了预测变化与局部敏感性之间的显著线性关联。研究同时指出局限:AlphaFold 3预测静态构象对构象选择或诱导契合机制的捕捉不足;样本量限于10个结合反应;以及当前流程通过K
D间接推断而非直接预测动力学速率。未来随着结构预测和亲和力预测方法的进步,该框架可通过调整似然函数中的权重系数实现协同演进。最终,该框架通过桥接分子尺度序列/结构信息与系统尺度信号转导,为更具生物学基础的模拟提供支撑。