《Green Carbon》:Greenase: A Comprehensive Database for Carbon-fixing Enzyme Retrieval
编辑推荐:
碳固定(carbon fixation)在缓解气候变化及推动可持续生物制造(sustainable biomanufacturing)中具有重要地位。研究人员构建了Greenase——一个集成固碳酶信息、结构聚类(structural clustering)及
碳固定(carbon fixation)在缓解气候变化及推动可持续生物制造(sustainable biomanufacturing)中具有重要地位。研究人员构建了Greenase——一个集成固碳酶信息、结构聚类(structural clustering)及辅助酶推荐模块(auxiliary enzyme recommendation module)的综合数据库与分析平台。相较于现有数据库,Greenase引入了结构聚类功能,揭示酶家族内部的结构多样性;其基于分子相似性的辅助酶推荐模块可帮助识别潜在催化结构相似底物的酶,从而支持新型酶发现与代谢途径设计。甲醛酶(formolase)途径与核酮糖-1,5-二磷酸羧化酶/加氧酶(Rubisco)表达的案例研究表明,该平台在酶筛选、途径优化及实验验证方面具有实用优势。Greenase为碳固定与转化研究提供了稳健且可扩展的资源,支持新型酶发现、代谢途径优化及酶工程,同时为未来数据扩展与功能验证提供指导。
研究背景与意义
随着化石燃料消耗导致大气二氧化碳(CO2)浓度持续上升,绿色生物制造被视为实现碳中和的重要技术路径。生物固碳通过将CO2及一碳化合物转化为多碳化学品,兼具温室气体减排与资源利用双重价值。目前已发现卡尔文循环(CBB)、还原型三羧酸循环(rTCA)等六条天然固碳途径,其中固碳酶是关键催化剂,直接影响过程的经济与环境效益。然而,固碳酶的相关数据分散在不同数据库与文献中,缺乏系统性整合与功能注释,阻碍了高效酶挖掘与途径设计。为此,重庆大学化学化工学院的研究人员开发了Greenase数据库,相关成果发表于《Green Carbon》。该研究填补了固碳酶专用数据库的空白,为合成生物学与工业生物催化提供了重要支撑。
关键技术方法
研究人员通过Python爬虫结合SOAP协议从BRENDA等公共数据库获取数据,辅以人工文献校验,构建了包含24647条记录的数据集,涵盖1552种固碳酶、436个物种及163个反应。采用Spring Boot+Vue.js架构开发Web平台,后端使用MySQL存储数据,前端实现多条件检索与可视化。利用ColabFold(集成AlphaFold2与MMseqs2)预测酶的三维结构,基于TM-score进行层次聚类与t-SNE降维分析。酶推荐模块通过RDKit计算摩根指纹(Morgan fingerprint),采用Tanimoto系数匹配结构相似底物并推荐候选酶。案例验证通过大肠杆菌表达纯化目标酶,结合液相色谱-质谱(LC-MS)与高效液相色谱(HPLC)定量分析产物。
研究结果
数据统计分析
当前版本Greenase收录24647条酶数据,覆盖1552种固碳酶、436个物种及163个反应。碳酸酐酶(EC 4.2.1.1)占比最高,脂肪酸乙酯合成酶、甲醛歧化酶等反应的原子经济性(atom economy, AE)超过0.9,显示其在工业应用中的潜力。
网页界面展示
数据库(
http://103.236.90.94:8000/)支持按产物、底物、酶名称及EC编号检索,提供本地BLAST序列比对工具。平台集成结构预测与聚类模块,用户可通过交互式图表探索酶分布特征。
结构相似性计算与聚类
预测的酶结构pLDDT值普遍高于90,表明模型可靠性高。以碳酸酐酶为例,TM-score聚类识别出19个结构簇,热图与t-SNE分析证实簇内结构高度相似,揭示了该家族的构象多样性。
基于结构相似性的酶推荐模块
系统通过计算目标化合物与数据库中产物的Tanimoto相似性(阈值>0.6)推荐候选酶。以3-羟基戊二酸为例,其与苹果酸的相似系数为0.62,据此推荐丙酮酸羧化酶与苹果酸脱氢酶,实验验证该组合可催化CO2与2-氧代丁酸生成目标产物(产量达3.56 mg/L)。
案例研究I:二羟丙酮途径查询
检索“二羟丙酮”获得甲醛酶(FLS)与甲醇脱氢酶(MDH)。实验优化显示,300 mM甲醇浓度下,两种酶协同催化可生成96.13 mg/L二羟丙酮,验证了数据库指导途径设计的实用性。
案例研究II:Rubisco经典固碳验证
通过“CO2”与“3-磷酸甘油酸”查询锁定Rubisco。大麦Rubisco在大肠杆菌中表达后,体外反应30分钟可生成58.25 μM 3-磷酸甘油酸,证实数据库信息的可靠性。
讨论与结论
Greenase的创新性体现在两方面:一是结构聚类突破传统序列注释局限,揭示酶家族构象亚型(如碳酸酐酶的19种结构簇);二是基于分子相似性的酶推荐拓展了非经典底物的催化可能性。尽管当前数据偏向已表征酶家族,且推荐算法依赖数据库覆盖率,但其整合动力学参数、三维结构与功能注释的能力,使其成为通用数据库(如BRENDA、UniProt)的重要补充。未来计划纳入新酶数据、引入动力学建模工具,并对接高通量实验流程,以支持碳固定途径的“设计-构建-测试-学习”(DBTL)循环。该研究为生物固碳的基础研究与工业应用提供了系统化资源,将加速酶工程与代谢途径优化进程。