纳米抗体热稳定性贝叶斯预测模型：基于蛋白质语言模型的贝叶斯预测方法

《Frontiers in Bioinformatics》：NbBayesLM: bayesian prediction of nanobody thermostability using protein language model

【字体：大中小】 时间：2026年06月03日 来源：Frontiers in Bioinformatics 3.9

编辑推荐：

　　纳米抗体是源自骆驼科动物的单域抗体，因其体积小、稳定性高的特点，在癌症治疗、诊断和成像等生物制剂领域具有重要应用价值。准确预测其热稳定性对于治疗药物和诊断试剂的开发至关重要。由于纳米抗体能够结合常规抗体通常无法触及的构象受限表位，因此在治疗靶点结合和药物发现中

纳米抗体是源自骆驼科动物的单域抗体，因其体积小、稳定性高的特点，在癌症治疗、诊断和成像等生物制剂领域具有重要应用价值。准确预测其热稳定性对于治疗药物和诊断试剂的开发至关重要。由于纳米抗体能够结合常规抗体通常无法触及的构象受限表位，因此在治疗靶点结合和药物发现中展现出独特优势。现有的纳米抗体热稳定性预测方法往往依赖有限的数据、手工提取的特征或缺乏不确定性量化的黑盒机器学习模型，这限制了其泛化能力和可靠性。为解决这些问题，本研究提出了一种名为NbBayesLM的贝叶斯神经网络（BNN）方法，该方法整合了蛋白质语言模型（PLM）嵌入特征与化学属性特征来预测纳米抗体的热稳定性。在公式设计中，理化性质被作为贝叶斯先验引入，为后验学习提供具有生物学意义的约束，从而提升模型的可解释性。研究使用包含10,630条具有实验测定熔解温度（Tm）的纳米抗体序列数据集进行训练，模型取得了1.89°C的平均绝对误差（MAE）和0.67的决定系数（R2），性能优于文献中报道的现有模型。此外，特征融合机制相比单模态方法提升了性能，而BNN架构提供了校准良好的不确定性估计，可用于指导候选序列筛选并加速纳米抗体工程改造。

研究背景与意义

纳米抗体（Nanobodies，又称VHH结构域）是源自骆驼科动物重链抗体的单域抗体，分子量约为12至15 kDa。凭借其分子尺寸小、溶解度高、组织穿透性强以及固有的高热稳定性等优势，纳米抗体在肿瘤免疫治疗、分子影像及体外诊断等领域展现出巨大的应用潜力。在这些应用场景中，热稳定性是决定其疗效、储存条件及货架期的关键生物物理参数，通常使用熔解温度（T_m）作为衡量指标。然而，传统的T_m实验测定方法（如差示扫描荧光法nano-DSF）通量低、成本高，难以满足现代噬菌体展示文库或高通量突变筛选的需求。尽管基于氨基酸序列的物理化学特征回归方法曾被广泛探索，但它们往往无法捕捉到纳米抗体特有的长程残基相互作用和结构约束。近年来，蛋白质语言模型（PLM）虽然能够提取丰富的进化信息，但大多数现有模型属于“黑盒”式的确定性回归，仅提供点估计，缺乏置信度评估，这在需要高精度决策的治疗性纳米抗体开发中可能导致高昂的试错成本。因此，开发一种既能高精度预测又能输出可靠不确定性估计的计算工具，成为该领域亟待解决的科学问题。

技术方法概述

为实现上述目标，研究人员构建了名为NbBayesLM的集成计算框架。在数据层面，研究团队整理并扩充了一个包含10,630条独特VHH序列的数据集，其中包括640条带有高质量实验T_m值的非冗余序列，以及通过CamSol工具计算的伪标签序列。在特征提取方面，模型采用了双通道输入策略：一是利用预训练的ESM-2 Transformer模型提取1280维的进化尺度建模（ESM）嵌入向量，以捕获长程进化与结构约束信息；二是通过Biopython和AAindex数据库计算17维的经典理化描述符（如分子量、等电点、疏水性GRAVY指数、半胱氨酸分数等）。在模型架构上，研究人员设计了贝叶斯融合神经网络，将处理后的ESM特征与理化特征进行拼接融合，随后输入由变分推断驱动的贝叶斯多层感知机（MLP）。该网络利用重参数化技巧对权重分布进行建模，并通过复合损失函数（结合负对数似然与KL散度）进行优化，最终实现对T_m平均值及其方差（异方差不确定性）的同时预测。此外，通过蒙特卡洛采样，模型将总体预测不确定性分解为认知不确定性（源于训练数据不足）和任意不确定性（源于数据固有噪声），为下游实验设计提供概率论依据。

研究结果

消融实验与附加分析

为了验证模型各组件的必要性，研究人员进行了严格的消融实验。结果显示，在输入空间完全相同的情况下，贝叶斯融合头相较于确定性神经网络表现出更优的预测精度（R²从0.650提升至0.670，MAE从1.957降至1.89）。这表明贝叶斯公式本身（如KL正则化和异方差损失）能够有效防止过拟合并提升鲁棒性。此外，单纯的理化特征拼接在确定性网络中甚至会导致性能下降，证明只有通过贝叶斯框架进行概率融合，才能有效整合多模态信息。在校准测试中，模型的预测区间覆盖概率（PICP）表现良好，且通过SHAP（沙普利加性解释）值分析发现，半胱氨酸分数是影响T_m预测的最强驱动因子，这与二硫键稳定蛋白质三级结构的生物学常识高度一致，验证了模型的可解释性。

讨论与结论

在讨论部分，研究人员深入分析了数据集规模对模型性能的边际贡献。实验表明，仅使用630条实验数据训练时，模型的不确定性极高；而引入10,000条伪标签数据进行半监督训练后，预测误差显著降低，且任意不确定性大幅减少，证明了数据规模对于可靠不确定性量化的关键作用。同时，研究也指出了当前方法的局限性，包括实验数据稀缺可能导致的泛化偏差、伪标签传播带来的系统性误差风险，以及针对高度陌生序列（OOD）预测时的置信度衰减问题。尽管如此，该框架仍为纳米抗体工程提供了一个兼具准确性与概率可靠性的实用工具。

结论

综上所述，研究人员成功开发了一种基于贝叶斯神经网络与蛋白质语言模型融合的纳米抗体热稳定性预测框架。该模型通过整合ESM-2的进化语义信息与17维生化特征，在10,630条序列的数据集上实现了1.89°C的MAE和0.67的R²，性能超越了现有的传统机器学习及单一PLM模型。更为重要的是，该框架提供的经校准的不确定性估计（区分认知与任意不确定性），能够有效指导实验人员识别高风险序列并优化候选分子筛选流程，从而在降低湿实验成本的同时加速治疗性纳米抗体的研发进程。

热点排行