《Journal of Energy Chemistry》:A machine learning framework for biorefinery pretreatment design
编辑推荐:
明辉 王 | 和健 张 | 一晨 邱 | 学如 王 | 如 周 | 摩岩 李 | 子宇 刘 | 海阳 崔 | 秀娟 李摘要木质纤维素生物精炼厂对循环经济至关重要,但其发展受到生物质难处理性和预处理优化成本高的限制。现有的机器学习方法通常仅适用于单一原料或工艺,这主要是由于数据碎片
明辉 王 | 和健 张 | 一晨 邱 | 学如 王 | 如 周 | 摩岩 李 | 子宇 刘 | 海阳 崔 | 秀娟 李
摘要
木质纤维素生物精炼厂对循环经济至关重要,但其发展受到生物质难处理性和预处理优化成本高的限制。现有的机器学习方法通常仅适用于单一原料或工艺,这主要是由于数据碎片化且不统一所致。在这里,我们提出了 LAM-Pre 这一框架,它结合了大型语言模型(LLM)辅助的文献挖掘、系统的机器学习基准测试以及实验验证,以预测在不同预处理和酶水解条件下的葡萄糖产量。通过使用 ChatGPT 辅助的数据提取,我们构建了一个涵盖多种生物质类型、预处理方法和酶的综合性 Pret-Glucose 数据集。对 16 个监督模型的基准测试表明,在当前这种异构数据集中,梯度提升决策树(GBDT)是表现最佳的模型。实验验证显示,不同和混合生物质原料的葡萄糖产量在趋势层面具有高度一致性(PCC 高达 0.9)。通过对 1,092,000 种工艺条件组合的虚拟筛选,我们快速找到了高产方案,其中一种使用氢氧化钠和过氧化氢的预处理方法实现了 96% 的葡萄糖产量。LAM-Pre 进一步应用于混合生物质系统,实验结果显示其产量比单一原料处理方法提高了 34.8%。LAM-Pre 建立了一种可扩展的、数据驱动的工作流程,有助于实现灵活且经济可行的生物精炼厂设计。