基于模型机制的解析:酶pH适应性的结构、表面特征及物理化学决定因素
《Biochemical and Biophysical Research Communications》:Model-Derived Mechanistic Insights into Structural, Surface, and Physicochemical Determinants Underlying Enzyme pH Adaptation
【字体:
大
中
小
】
时间:2026年06月18日
来源:Biochemical and Biophysical Research Communications 2.2
编辑推荐:
张俊|阮慧琼|张金明|李玉祥|李毅|罗桂兰中国大理大学数学与计算机科学学院,大理,671003摘要最优pH值是决定酶的催化效率与稳定性的核心功能参数,对于优化工业生物催化过程至关重要。为解决传统实验测定方法耗时耗力且成本高昂的问题,以及现有计算模型在特征表示能力上的不足,本文提出
张俊|阮慧琼|张金明|李玉祥|李毅|罗桂兰中国大理大学数学与计算机科学学院,大理,671003摘要最优pH值是决定酶的催化效率与稳定性的核心功能参数,对于优化工业生物催化过程至关重要。为解决传统实验测定方法耗时耗力且成本高昂的问题,以及现有计算模型在特征表示能力上的不足,本文提出了一种多源注意力柯尔莫哥洛夫-阿诺德网络模型——EnzMSA-KAN,用于预测酶的最优pH值。该模型通过三阶段的架构创新实现深度特征融合与高效回归。首先,构建特征融合模块,整合蛋白质序列的进化信息、残基的物理化学性质以及全局统计特征,动态调整不同来源信息对pH适应的权重贡献。其次,采用双层图注意力网络捕捉残基间的空间拓扑结构与序列依赖关系,同时引入多头注意力池化机制,自动聚焦于活性位点及表面电荷分布等关键功能区域。最后,使用正则化的柯尔莫哥洛夫-阿诺德网络回归层替代传统的全连接层,基于可学习的单变量函数基,精准拟合酶的微环境与最优pH值之间的复杂非线性关系。在包含1554个酶序列的基准数据集上的实验表明,该模型的测试集平均绝对误差为0.57,均方根误差为0.81,R2值为0.52,显著优于现有的主流方法。此外,注意力可视化结果证实了该模型能够有效捕捉关键功能残基,使得预测结果具有较好的生物学可解释性。这项研究不仅为酶功能预测提供了高效工具,还为工业酶的合理设计与工程化带来了新的计算范式。引言酶作为具有高效催化活性的生物大分子,在生物技术、食品加工、酿造、纺织制造、洗涤剂配制、造纸以及药物合成等诸多领域都具有不可或缺的应用价值[1]。作为代谢过程的核心催化剂,酶的活性在很大程度上取决于反应体系的pH值。这一环境因素会通过调节分子构象和活性位点的状态来直接影响酶的功能[2]。因此,阐明酶活性与pH值之间的机制关联,并精确确定最优pH值(pHopt),不仅是分子酶学研究的基础内容,也是实现酶制剂在工业中高效应用的关键前提[3]。酶的pH依赖性本质上是分子结构与功能的调控过程,受到催化残基的质子化状态以及蛋白质空间构象稳定性等多种因素的共同影响[4]、[5]。在分子层面,pH值的变化主要会改变活性位点内氨基酸残基的质子化状态,进而影响底物结合亲和力及催化反应动力学[6]。同时,pH值的波动还会导致表面电荷重新分布,破坏内部静电相互作用。这些扰动可能引发二级或三级结构的不可逆变化,最终导致酶活性丧失或稳定性下降。不同酶家族在这些分子层面的适应性变化存在显著差异,使得它们的最优pH值范围很广,从强酸性环境(pH < 3)到强碱性环境(pH > 10)不等。在工业生物催化过程中,操作环境往往与酶的天然最优pH值存在较大差异,这常常会导致催化效率急剧下降甚至酶完全失活[7]、[8]。因此,精确预测酶的最优pH值对于优化工艺参数、设计酶分子以及开发新型酶制剂具有至关重要的指导意义[9]、[10]。虽然大多数酶在中性附近(pH ≈ 7)具有最佳活性,但某些极端环境微生物酶在pH值为1.0的强酸性环境或pH值为12.5的强碱性环境中仍能保持最高活性[11]。对于这类特殊酶而言,准确确定其pHopt值对于在极端工业环境中的生物催化应用尤为重要[2]。然而,传统上确定pHopt值的方法依赖于在pH梯度范围内进行活性测定。这类方法不仅劳动强度大、试剂成本高,还无法满足高通量筛选和特性分析的需求,从而成为制约酶工程发展的技术瓶颈[12]。为克服这些实验上的局限性,基于计算方法预测酶的pHopt值已成为研究热点。早期的预测模型主要依赖氨基酸组成和疏水性等简单的物理化学特征;但这些方法仅能对酸性酶和碱性酶进行二元分类,无法实现定量预测[13]。随着机器学习的出现,随机森林和支持向量机等传统算法被用于定量预测pHopt值。不过,这些模型在挖掘高维序列特征方面的能力有限,其预测精度往往难以满足实际需求[14]。最近,基于深度学习对大量蛋白质序列进行分析的蛋白质语言模型,展现出捕捉上下文依赖关系和进化保守信息的能力。这为基于序列的酶功能预测提供了一种全新的特征提取范式[15],极大地提升了酶pHopt预测模型的性能。在利用蛋白质语言模型进行酶pHopt预测方面已经取得了显著进展[16]。例如,EpHod模型采用半监督方法,将酶序列与宿主生物的最佳生长pH值相对应,利用蛋白质语言模型编码的特征进行初步预测[17]。Zaretckii等人进一步优化了特征融合策略,以提高蛋白质语言模型表征的效果。VENUS-DREAM模型则引入了少样本学习理念,利用k近邻算法判断查询酶与参考酶之间的嵌入相似性,从而实现不同酶家族间的迁移学习[5]。类似地,OpHReda模型则采用了检索增强机制,通过融合同源序列的嵌入特征与目标酶特有的特征,整合多源信息[18]。然而,尽管在方法上取得了这些进步,但仍存在一些根本性的瓶颈。基于规则的物理化学模型主要依赖孤立的低级特征,忽略了残基间的协同作用以及空间拓扑结构,从而导致特征表示不充分。此外,现有模型难以捕捉高维序列模式与结构构象之间的复杂耦合关系,也就无法从机制层面理解pH适应现象。目前的深度学习架构还受到单模态特征输入或简单聚合技术(如全局平均池化)的限制[19]。这类方法无法充分考虑活性位点及表面电荷分布等关键功能结构,从而限制了模型的预测精度和泛化能力[20]。为解决上述问题,我们提出了EnzMSA-KAN,这是一种专为预测酶最优pH值而设计的多源注意力柯尔莫哥洛夫-阿诺德网络模型。该模型通过四个方面的架构创新,实现了对酶所处复杂物理化学环境的深度建模:(1)构建特征融合模块,动态分配序列进化信息、物理化学性质以及全局结构特征之间的权重,从而提升多维度特征的协同作用效果。(2)设计双层图注意力网络,分别分析序列的相邻关系以及残基间的空间相互作用,精准捕捉盐桥和氢键等对pH敏感的分子间作用力。(3)引入多头注意力池化机制,通过多尺度聚合策略自动聚焦于活性位点及带电残基等关键功能区域,强化这些核心区域对预测结果的贡献。(4)采用正则化的柯尔莫哥洛夫-阿诺德网络,构建特征与最优pH值之间的平滑非线性映射,利用其出色的函数逼近能力提升预测精度和模型的泛化稳定性。在基准数据集上的性能验证以及对注意力机制的可解释性分析,都证明了该模型的显著优势,为酶的分子特性分析及工程化设计提供了高效的计算工具。材料与方法我们建立了双轨验证框架,包括核心数据集和独立的验证集,以此在确保训练效果的同时,实现稳健的泛化能力评估(图1a)。核心数据集来源于EpHod工具包中的pHopt数据库[11],其原始数据则来自BRENDA[21]、[22]——这是目前最全面、最可靠的国际酶数据库。该数据集最初包含9,855条记录,其中包含了通过实验测定的pHopt值。性能评估与比较分析为了严格评估EnzMSA-KAN的性能,我们将其与五种最先进的基准模型进行了对比:EpHod[11]、Venus-DREAM[6]、Catopt[25]、GCN以及GAT。我们采用了三种主要指标进行评估:均方根误差、平均绝对误差以及决定系数R2。各模型的对比结果见表1。该表展示了EnzMSA-KAN与五种基准模型在R2、RMSE和MAE这三项指标上的表现。结论为解决在预测酶最优pH值时存在的特征表示不足和非线性拟合难题,本研究基于多头注意力池化技术开发了EnzMSA-KAN模型。该模型构建了一个协同工作的架构,包括门控多源特征融合、双层GAT空间编码、多头注意力聚合以及正则化的KAN非线性回归,从而实现对酶序列、结构拓扑的深度联合建模。CRediT作者贡献说明李毅:写作——审阅与编辑、验证、监督、研究设计、概念构思。罗桂兰:写作——审阅与编辑、验证、监督、概念构思。张俊:写作——审阅与编辑、可视化、验证、方法论、形式分析、数据整理、概念构思。阮慧琼:研究。张金明:研究。李玉祥:研究。利益冲突声明作者声明不存在任何可能影响本文研究的已知财务利益或个人关系。数据可用性本研究的所有数据及代码均公开可用。核心数据集来自EpHod工具包中的pHopt数据库[11],其原始数据源自BRENDA[21]、[22]。此外,EnzMSA-KAN的源代码已存储在https://github.com/ZhangJunSy/EnzMSA-KAN地址上。该仓库的README文件中提供了详细的用户指南,说明了软件的安装方式、所需输入数据的格式以及示例操作,以便用户使用。利益冲突声明作者再次声明不存在任何可能影响本文研究的已知财务利益或个人关系。致谢本研究得到了中国国家自然科学基金(62366002)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号