通过新提出的可解释集成学习(ExEL)框架对自然河流中的纵向离散系数进行建模

《Journal of Contaminant Hydrology》:Longitudinal dispersion coefficient modeling in natural streams via newly proposed explainable ensemble learning (ExEL) framework

【字体: 时间:2026年03月28日 来源:Journal of Contaminant Hydrology 4.4

编辑推荐:

  本研究采用多种机器学习模型及集成方法(FFNN、ANFIS、SVR、CNN及SAE、WAE、NAE)估算自然河流中的纵向离散系数K?,基于美英50条河流的670组数据。结果表明,集成方法NAE较CNN降低11% RMSE,提升7%以上决定系数;SHAP分析显示渠道宽度和水深为关键驱动因素,且模型间解释权重存在差异。交叉验证表明集成方法(如WAE)AUC稳定性优于单一模型。

  
Vahid Nourani|Sepehr Arvani|Elnaz Sharghi|Sameh A. Kantoush|Selin Uzelaltinbulat|Jinhui Jeanne Huang
京都大学灾害预防研究所(DPRI),日本京都611-0011

摘要

精确估计河流中污染物传输的纵向扩散系数(K?)对于污染物传输建模至关重要。本研究使用了多种机器学习(ML)模型,包括前馈神经网络(FFNN)、自适应神经模糊推理系统(ANFIS)、支持向量回归(SVR)和卷积神经网络(CNN)来估计Kx。此外,还采用了三种集成学习(EL)技术:简单平均集成(SAE)、加权平均集成(WAE)和神经平均集成(NAE),以结合单个模型的输出结果。分析利用了来自美国和英国自然河流的数据,这些数据包含了河道宽度(W)、流速(H)、平均流速(U)和剪切流速(U?)等变量。最终通过Shapley加性解释(SHAP)方法评估了模型的可解释性,该方法确定WH是最有影响力的因素,但在不同模型中的影响程度不同。使用均方根误差(RMSE)和决定系数(DC)指标对模型性能进行评估后发现,NAE的准确性更高,与表现最佳的基于深度学习的CNN相比,RMSE降低了11%,DC提高了7%以上。针对单条河流的交叉验证(CV)结果显示,FFNN的曲线下面积(AUC)最高(为0.909),而集成技术,尤其是WAE(AUC = 0.902 ± 0.016)和NAE(AUC = 0.886 ± 0.024),表现出更强的稳定性和泛化能力,始终优于单一模型。

引言

扩散系数在模拟河流系统中污染物的传播过程中起着基础性作用,因为它量化了污染物在流动中的扩散速率。扩散发生在介质的体积内,最一般的形式涉及三个空间维度,因此有三个扩散系数。然而,在大多数自然河流环境中,一维或二维表示就足以满足实际建模需求。在河流中,垂直混合通常在污染物排放点附近迅速发生,而纵向混合则在下流较长的距离上发展。因此,纵向扩散被认为是控制溶质传输的主要过程,大多数研究的重点都是估计纵向扩散系数(K?)(Rutherford, 1994; Najafzadeh et al., 2021)。这一点在涉及污染物从河流输送到海洋的情景中尤为重要,因为准确的水质建模和有效的污染管理策略对于保护海洋生态系统的健康至关重要。
河流中溶质的传输和分布受对流-扩散过程以及生物和化学反应的共同影响,其中K?是混合强度的关键指标。纵向扩散受多种水动力和几何因素的影响,包括河道宽度和深度、平均流速和剪切流速、河道坡度、河床粗糙度以及河床地形(Fischer, 1979; Seo and Cheong, 1998)。污染物传输通常经历三个阶段:排放后的初始稀释、河流横截面的湍流混合,以及由K?控制的下游浓度梯度的纵向稳定(Azar et al., 2021)。鉴于其在河流污染建模中的关键作用,已经开发了多种实验、分析和数值方法来估计K?。虽然现场测量可以直接计算K?,但这些数据往往难以获得,因此人们普遍依赖经验关系式(Azar et al., 2021)。这些经验公式通常基于流速、深度和河道宽度等水力特性制定,但在极端或非典型情况下可能产生不可靠甚至物理上不现实的估计结果(Darmian and Schmalz, 2023)。
近年来,机器学习(ML)模型作为一种有效的替代方案出现,因为它们能够捕捉多个变量之间的非线性关系,并提高跨区域数据集的估计精度(Suykens et al., 2012)。在ML方法中,人工神经网络(ANNs)在水环境研究中得到了广泛应用。例如,Tayfur和Singh(2005)展示了ANNs模拟不同河流系统中污染物传输的能力,而Toprak和Cigizoglu(2008)报告称ANNs在估计K?方面的性能优于传统的经验公式。尽管取得了成功,但基于ANN的模型在外推条件下的可靠性可能较低(Hong et al., 2020)。为了解决这一问题,提出了结合神经学习与模糊逻辑(FL)推理的混合模型,如自适应神经模糊推理系统(ANFIS),其在K?估计方面表现出更好的鲁棒性(Riahi-Madvar et al., 2009)。其他ML技术,如支持向量回归(SVR),也已在各种水工程问题中得到成功应用(例如,参见Azamathulla et al., 2010),尽管它们在K?估计中的应用仍然有限。最近,深度学习(DL)模型,如卷积神经网络(CNNs),被引入用于K?估计,能够自主从数据中学习复杂的层次结构,而无需手动特征工程(Schmidhuber, 2015; Ghiasi et al., 2021)。
尽管ML和DL模型表现出有效性,但模型性能在不同数据集间的变异性仍然是一个持续存在的挑战。由于模型的敏感性以及其对数据特征的依赖性,不同模型往往对同一问题产生不一致的估计结果。这种缺乏共识的情况突显了需要更健壮的建模策略。集成学习(EL)技术,如简单平均集成(SAE)、加权平均集成(WAE)和神经平均集成(NAE),通过利用模型的互补优势来整合多个模型并提高估计的可靠性。EL方法已在多个工程领域得到成功应用(例如,Sharghi et al., 2018; Nourani et al., 2019; Sharafati et al., 2020),但它们在K?估计中的应用尚未被报道。本研究的新颖之处在于,采用了多种ML模型及其集成组合来估计自然流动系统中的Kx
基于ML的方法的另一个关键局限性是它们的黑箱特性,这限制了模型的可解释性,阻碍了其在水环境应用中的信任度和实际采用(Vilone and Longo, 2021)。这一挑战促使了可解释人工智能(XAI)方法的发展,旨在提高模型的透明度和可理解性(Hassija et al., 2021; Nourani et al., 2025a)。在模型不可知的XAI技术中,Shapley加性解释(SHAP)框架因其基于合作博弈论量化特征贡献的能力而受到重视(Molnar, 2020; Danesh et al., 2022; Jamshidi et al., 2024)。SHAP已成功应用于环境建模中关键几何和水力因素的识别(例如,参见Tehrany et al., 2019; Sachdeva and Kumar, 2022; Amnuaylojaroen et al., 2024; Shadkani et al., 2024; Nourani et al., 2025b),证明了其在提高K?估计透明度方面的相关性。
基于这些进展,本研究的新颖之处在于将EL与SHAP框架相结合,开发了一种用于自然流动系统中K?估计的混合可解释集成学习(ExEL)技术。EL通过结合多个ML模型来提高估计精度和鲁棒性,而SHAP提供了特征级别的可解释性,使人们能够透明地了解纵向扩散的水力和几何驱动因素。这一集成框架不仅提升了方法论的严谨性,还为河流水质管理和污染控制提供了实际价值。简而言之,本研究的主要目标是通过以下步骤开发一种混合ExEL框架来建模Kx
  • (i)
    开发并系统评估一套ML模型,包括前馈神经网络(FFNN)、ANFIS和SVR等浅层学习方法,以及基于DL的CNN模型,用于Kx的估计,
  • (ii)
    通过应用提出的线性和非线性EL技术来提高估计性能和模型可靠性,
  • (iii)
    通过将SHAP纳入建模框架,解决黑箱ML模型在Kx估计方面的可解释性限制。

材料与方法

本研究开发了一个基于ML的框架,用于估计自然河流环境中的K?。然后使用SHAP技术解决了模型的可解释性问题,从而能够详细分析关键水力参数的敏感性。所提出的建模使用了来自美国和英国50条河流的670个观测数据,并在应用了必要的数据预处理方法后进行了分析。

结果与讨论

最初,通过试错方法校准了各个ML模型以优化超参数。然后使用CV和基准比较评估了模型性能,并将最优配置应用于集成技术中以提高估计精度。

结论

本研究旨在通过结合多种ML模型的EL来改进自然河流中K?的估计。使用来自美国和英国河流的水力和几何数据,评估了浅层学习器(FFNN、ANFIS、SVR)、基于DL的架构(CNN)以及三种集成技术(SAE、WAE和NAE)。比较结果显示,CNN在RMSE方面的表现分别优于ANFIS、FFNN和SVR约1.2%、7%和31%,这突显了各个模型之间的差异

CRediT作者贡献声明

Vahid Nourani:撰写——审稿与编辑、验证、监督、资金获取。Sepehr Arvani:撰写——初稿、软件开发、数据管理、概念构思。Elnaz Sharghi:调查、数据分析、概念构思。Sameh A. Kantoush:撰写——审稿与编辑、资源管理、资金获取。Selin Uzelaltinbulat:方法论研究、数据分析、概念构思。Jinhui Jeanne Huang:项目管理、调查、数据管理。

未引用参考文献

Iwasa and Aya, 1991
Kashefipour and Falconer, 2002
Koussis and Rodríguez-Mirasol, 1998
Liu, 1977
McQuivey and Keefer, 1974

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号