一种用于厌氧消化过程中甲烷产量跨研究预测与优化的、具有可解释性且能识别不确定性的机器学习框架
《Bioresource Technology Reports》:An explainable and uncertainty-aware machine-learning framework for cross-study prediction and optimization of methane yield in anaerobic digestion
【字体:
大
中
小
】
时间:2026年06月19日
来源:Bioresource Technology Reports 4.3
编辑推荐:
Ali Alhraishawi|Ali S. Abed Al Sailawi|Hassan A. Hameed Al-Hamzawi
伊拉克阿马拉市米桑大学工程学院化学工程系,邮编62001
摘要
由于底物、预处理方法及操作条件存在显著差异,准确预测厌氧消化系统中的
Ali Alhraishawi|Ali S. Abed Al Sailawi|Hassan A. Hameed Al-Hamzawi
伊拉克阿马拉市米桑大学工程学院化学工程系,邮编62001
摘要
由于底物、预处理方法及操作条件存在显著差异,准确预测厌氧消化系统中的甲烷产量一直是一项挑战。我们构建了一个用于跨研究泛化的集成机器学习框架,该框架基于由171项独立研究中的1348组数据构成的统一数据集。该框架通过采用防泄漏的分组验证机制来整合跨研究数据,从而确保对跨研究泛化能力的真实评估。同时,它还整合了堆叠集成学习、基于SHAP的可解释性分析以及符合性预测方法,以提高在复杂条件下的可靠性。经过优化的堆叠集成模型在交叉验证中的决定系数为R2=0.904±0.018(95%置信区间为0.87–0.94),均方根误差为39.93 mL CH? g?1,而空白基准模型的R2约为0,均方根误差约为129 mL CH? g?1,这充分表明该任务并非易事。外部验证结果显示,该模型在数据分布发生变化的情况下仍具备跨研究泛化能力。SHAP分析确定了温度、挥发性固体含量及预处理类型等关键工艺影响因素,并揭示出与已有厌氧消化机制相符的非线性相互作用。通过符合性预测方法,我们对预测不确定性进行了量化,得到了具有接近理想覆盖率的校准预测区间,且无需依赖特定的分布假设。优化结果表明,与中等水平的基准运行配置相比,该模型有望提高甲烷产量,这些优化是在考虑不确定性约束的前提下进行的,以确保性能提升具有实际意义。总体而言,所提出的框架能够实现可靠且具有不确定性意识的预测与优化,为现实世界的厌氧消化系统提供了强大且可推广的决策支持工具。
引言
厌氧消化是一种成熟的生物化学途径,它能将有机废物转化为富含甲烷的生物气以及稳定的消化残渣,从而实现废物管理、可再生能源生产与养分回收的有机结合。从家庭用消化器到工业废水处理厂,厌氧消化及其变体(单一消化和协同消化)已被广泛应用(Mohd Ghazali等人,2024年),并且被视为城市和农业领域循环生物经济战略以及脱碳路径中的核心技术(Kunatsa和Xia,2022年)。由于农业残留物、食品和城市废物、污水污泥以及木质纤维素残留物等多种原料都适合用于厌氧消化,这项技术因此在减少温室气体排放、回收能源以及在综合废物转能源系统中循环利用养分方面具有独特优势(Jacob等人,2025年;Akash等人,2025年)。尽管具有这些优势,但大规模的实际应用仍受到原料质量不稳定、负荷变化时工艺不稳定,以及能量回收与后续处理目标之间的权衡等因素的限制;这些因素促使人们努力改进厌氧消化厂的预测控制、原料选择以及技术经济决策能力(Elsayed等人,2026年)。
在多种不同底物和操作条件下准确预测甲烷产量长期以来一直是个难题。诸如ADM1(厌氧消化模型1)之类的机理模型能够从生物化学角度描述水解、酸化、乙酸生成和甲烷生成过程,但这些模型需要对底物进行详尽的特性分析并确定动力学参数,而这在面对复杂的多源数据集和实际大规模操作时难以实现(Meola和Weinrich,2025年;Kim和Kim,2025年)。Danaee等人(2025年)进一步指出了从机理上解析有机物分解过程所面临的巨大参数确定难度和多尺度建模挑战,他们还利用密度泛函理论(DFT)和福井函数对实验观测到的降解规律进行了验证(Danaee等人,2025年)。这进一步证明了,在无法进行全面动力学特性分析的情况下,数据驱动的元分析方法具有独特的优势,能够帮助处理复杂的多元数据集。虽然生化甲烷潜力测试(BMP)等实验方法仍是判断原料潜力的标准手段,但由于其耗时且需要大量实验室资源,因此限制了检测效率和分析的普遍适用性(Nadeem等人,2025年)。
实证预测的复杂性还体现在:首先,各种物理化学性质之间存在强烈的非线性和相互作用;其次,反应动力学具有时间依赖性,且存在保留时间效应;最后,不同研究在测量方法和数据报告方式上存在差异,这些因素共同导致了数据集的碎片化,进而阻碍了跨研究间的推理和模型放大应用(DelaVega-Quintero等人,2025年;Salma等人,2025年)。这些局限性降低了单项研究模型的跨研究泛化能力,也妨碍了为操作人员和设计者开发可靠且具有风险意识的决策支持工具(Marycz等人,2025年;Arshad等人,2019年)。值得注意的是,作为甲烷生成酶必需辅因子的微量微量元素(如铁、钴、镍、钼、硒)在现有文献中的数据集中很少被量化或提及,这就使得特征选择只能依赖于较为粗略的成分指标,而且由于忽略了具有生物学意义的预测因子,还可能增加模型的剩余不确定性。
数据驱动方法,尤其是机器学习(ML)和深度学习(DL)技术,已被越来越多地应用于从实验室到实际大规模厌氧消化系统中的生物气及甲烷产量预测(Arshad等人,2011年)。混合深度学习架构以及带有注意力机制的循环神经网络已被证明能够捕捉长期监测数据中的时间依赖性,从而提升大规模协同消化过程的序列预测精度(Meola和Weinrich,2025年)。基于树的结构和集成机器学习方法(如随机森林、XGBoost以及堆叠集成模型)在预测不同类型原料的累计甲烷产量和生化甲烷潜力方面表现出了出色的实证效果(Al-Hamzawi等人,2025a),其性能往往优于单一算法的基准模型,同时还具备较强的抗特征差异能力(Ma等人,2024年)。更重要的是,近期的一些研究还将这些预测优势与可解释性分析方法相结合(如SHAP、部分依赖图和累积局部效应图),从而识别出温度、挥发性固体、木质素含量、有机负荷率以及预处理参数等具有机理依据的关键特征,进而提升了模型的透明度及其在实际工程中的应用价值(Arshad等人,2019年;Schroer和Just,2023年)。对于基于表格形式的成分和操作参数的稳态累计产量预测,基于树的结构的学习方法相比深度序列网络具有明显优势:首先,它们无需嵌入层即可直接处理连续型和分类型等不同类型的特征;其次,它们的递归分割机制能够实现与生物化学反应速率定律的乘法交互结构相对应的加性基函数展开;最后,它们可以通过集成方差来实现易于计算的不确定性分解,而这一过程在循环神经网络中则较为复杂。因此,尽管深度序列网络在时间序列预测方面表现更优,但从理论层面来看,它们并不适用于当前的静态回归任务。
虽然此前已有几项元分析工作汇集了甲烷产量数据以探索其中的普遍经验规律,但这些研究大多仅侧重于统计总结或随机分割验证,未能充分考虑研究之间的关联性。这种传统方法容易引发数据泄漏问题,即同一研究中的数据会同时出现在训练集和测试集中,从而导致性能指标被高估。我们的主要贡献在于将统一的数据集纳入一种防泄漏的分组验证框架之中。通过严格在研究层面区分训练集和测试集,我们确保模型能够泛化到完全未知的实验环境,而非仅仅记忆特定研究的偏差。
此外,尽管ADM1等机理模型被广泛使用,但在实际应用中往往存在参数难以确定、对校准敏感以及在不同底物和操作条件下的迁移能力较差等问题,这也进一步凸显了采用数据驱动方法的必要性。不过,目前仍存在一些重要的方法学缺陷:大多数研究依赖于单一设施或样本量有限的数据集;更为关键的是,在现有的机器学习研究中,不确定性量化仍然是一个重大挑战,因为常用的模型(如基于树的集成模型)本身并不具备提供经校准的预测不确定性的功能。此外,许多方法依赖于经验性的或未经验证的不确定性估计方法,而这些方法在数据分布发生变化时准确性会下降,尤其是在跨研究比较中,这就限制了它们在决策应用中的可靠性(Ma等人,2024年;Kova?i?等人,2024年)。
因此,通过结合跨研究数据整合、可解释性机器学习以及基于原理的不确定性估算方法,对于开发出具有迁移能力且能帮助识别风险的分析工具至关重要,这类工具能够为现实世界中的厌氧消化系统在原料选择、预处理方案确定以及操作优化等方面提供指导。为此,本研究将统一的数据集纳入一种防泄漏的机器学习框架之中,该框架采用了分组验证机制,从而能够更真实地评估模型在跨研究场景下的预测泛化能力。与以往多数侧重于单个机器学习模型预测精度的研究不同,本研究提出了一种集成框架,该框架将跨研究数据整合、防泄漏验证、符合性不确定性量化以及基于可解释性的分析方法整合在一个统一的流程中。这种整体设计不仅能够实现准确的预测,还能在复杂的现实世界条件下实现强大的跨研究泛化能力以及出色的决策支持功能。
章节节选
机理模型(ADM1)
厌氧消化的机理建模传统上依赖于厌氧消化模型1(ADM1)及其扩展版本,这些模型通过耦合的微分方程和动力学速率表达式来描述水解、酸化、乙酸生成和甲烷生成等生物化学过程。ADM1至今仍是厌氧消化系统动态模拟和控制相关研究中最广泛采用的框架(Mo等人,2024年;Shi等人,2025年)。近期的研究则集中在模型参数的确定上……
研究设计与数据整合
本研究是一项回顾性的多源元分析,旨在综合分析已发表文献中的厌氧消化性能数据,具体而言就是那些报道甲烷产量的实验数据。各项实验配置被视作独立的观测值。最终形成的统一数据集包含了171项独立研究中的1348组数据(见表1),平均每项研究有7.88组数据。这些数据涵盖了182种不同的底物类别和20种预处理方式,涉及……
通过优化后的集成模型实现精准的跨研究甲烷预测
如表4所示,在防泄漏的分组交叉验证框架下,所有被评估的模型都展现了出色的预测性能,其决定系数R2介于0.856到0.904之间。其中,所提出的堆叠集成模型具有最高的解释能力,R2值为0.904,这表明该模型更能有效捕捉不同研究数据之间的变异特征。在各个单独的模型中,CatBoost模型的预测误差最小,其均方根误差为38.67 mL CH? g?1……
跨研究泛化能力与现有文献的对比
在防泄漏的分组验证模式下,堆叠集成模型的交叉验证R2值为0.904±0.018,这一数值表明该模型在171项独立研究中的泛化能力十分强。更重要的是,通过配对折叠统计检验发现,在Wilcoxon符号秩检验下,堆叠集成模型相比最优秀的单个模型(CatBoost)具有统计学上的显著优势,p值小于0.05,效应大小属于中等到较大程度。该模型性能的平均值的95%置信区间为……
结论
本研究提出了一种集成化、具有可解释性且能够考虑不确定性的机器学习框架,可用于对厌氧消化过程中的甲烷产量进行回顾性的跨研究预测与优化。通过利用大规模的统一数据集(1348组数据)、防泄漏的分组验证策略以及基于符合性预测的校准方法,所提出的堆叠集成模型在各种不同的研究条件下均展现出强大的泛化能力,R2值为0.904±0.018。通过可解释性分析,我们还识别出了……
CRediT作者贡献说明
Ali Alhraishawi:写作——审稿与编辑,写作——初稿撰写,可视化,验证,监督,软件工具,方法设计,数据整理,概念构思。Hassan A. Hameed Al-Hamzawi:写作——审稿与编辑,写作——初稿撰写,验证,资源协调,项目管理,方法设计,正式分析。
利益冲突声明
作者声明不存在任何可能影响本文研究结果的已知财务利益或个人关系。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号