基于混合特征选择与集成学习的多源遥感提升越南红河三角洲红树林重金属预测精度

《International Journal of Remote Sensing》:Improving heavy metal prediction using hybrid feature selection and ensemble learning with multi-source remote sensing in Red River Delta mangroves, Vietnam

【字体: 时间:2026年06月19日 来源:International Journal of Remote Sensing 2.6

编辑推荐:

  红树林生态系统在支持沿海水产养殖方面发挥着关键作用,通过提供基本生态系统服务并降低重金属(HM)向邻近水生环境的暴露风险。尽管具有重要生态价值,但由于水产养殖和城市发展导致的红树林面积锐减,已造成沉积物中更难金属大量释放并向周边水体迁移,对红树林重金属调控能力

  
红树林生态系统在支持沿海水产养殖方面发挥着关键作用,通过提供基本生态系统服务并降低重金属(HM)向邻近水生环境的暴露风险。尽管具有重要生态价值,但由于水产养殖和城市发展导致的红树林面积锐减,已造成沉积物中更难金属大量释放并向周边水体迁移,对红树林重金属调控能力进行定量评估仍面临技术挑战——在大空间尺度上监测痕量重金属浓度颇具难度。该研究开发了一种新颖的自动化集成学习框架,利用多源地球观测数据对红树林土壤中砷(As)和铅(Pb)浓度进行大尺度预测。研究将光学Sentinel-2(MSI)与C波段SAR(Sentinel-1)及L波段SAR(ALOS-2 PALSAR-2)数据相结合,并整合101个土壤岩芯的野外测量数据,以提取互补的光谱、植被与土壤指数、纹理及后向散射特征。多家机器学习模型在AutoGluon框架内通过堆叠策略与五折交叉验证进行训练与系统优化。加权二级集成模型一致优于七家一级基学习器,对两种金属均实现了高预测精度(R2 > 0.75)。混合遗传算法-粒子群优化(GA-PSO)最优特征选择方法进一步提升了模型性能,使R2分别达到0.816(As)和0.886(Pb),同时RMSE降低至4.266和6.293 mg kg?1。所提出的工作流程展示了多传感器数据融合、特征选择与自动化集成学习在复杂沿海环境中绘制痕量土壤污染物分布图的附加价值。这是首个系统性、大尺度的越南红树林重金属积累评估研究,整合了光学与多频率SAR数据及先进集成建模方法。该框架计算高效、可扩展且可迁移,为区域至国家尺度的环境监测与生态风险评估提供了实用解决方案。
红树林生态系统作为地球上最具生产力和生态重要性的生态系统之一,在全球碳循环中扮演着关键角色,通过将碳储存在地上和地下生物量以及土壤有机碳中,为气候变化减缓作出贡献。此外,红树林生态系统通过拦截和积累沉积物中的重金属,降低金属迁移性并限制其对邻近水生环境的暴露,从而促进金属污染的修复。然而,过去五十年间,红树林经历了严重的全球衰退,亚洲地区尤为严重,越南也不例外。北部地区大规模虾类养殖的快速扩张导致红树林大量丧失,而红树林生态系统的破坏会导致先前固存的碳和重金属释放到周围水体和大气中,显著改变金属形态并增加生物有效性,对人类健康和沿海生态系统构成重大风险。

现有研究大多基于野外测量,缺乏空间连续性评估。尽管地球观测(EO)技术的进步为土壤污染物的空间预测提供了可能,但在红树林生态系统中的应用仍然有限,这主要归因于其复杂的生物物理和地貌背景。大多数基于EO的研究依赖光学数据,对合成孔径雷达(SAR)数据的整合不足,而SAR对地表结构和湿度具有高度敏感性。此外,虽然集成机器学习方法显示出强大的预测能力,但其在红树林重金属估算中的应用仍然稀缺。因此,迫切需要可扩展的EO驱动方法,整合多源数据与先进集成学习,以生成可靠的空间显式重金属分布估计。

在越南,国家海洋环境监测计划自1994年起开展沿海沉积物重金属年度评估,但红树林生态系统未被明确纳入监测范围。现有关于越南红树林重金属积累的信息仅限于特定地点的案例研究。值得注意的是,迄今尚未有研究利用地球观测数据对红树林生态系统进行区域或国家尺度的地球化学或潜在重金属储量研究,这限制了对红树林沉积物重金属固持潜力和空间脆弱性的理解。

为应对这些关键知识空白,该研究首次开展了区域尺度、空间显式的红树林沉积物重金属浓度和储量评估,通过整合光学和SAR地球观测数据与先进机器学习算法,开发了可扩展且具有成本效益的建模框架,能够预测越南北部不同红树林生态系统中重金属的积累情况。该研究旨在通过多源遥感数据集与先进集成学习框架及最优特征选择的结合,提高红树林土壤重金属浓度的预测精度。主要方法学贡献在于开发了基于AutoGluon的加权堆叠二级集成模型,该模型自动优化和组合多样化基学习器以增强预测性能,并结合稳健的5折交叉验证确保模型稳定性、减少过拟合,并提供比传统留出法更可靠的预测不确定性估计。

研究区域位于越南北部沿海的三个红树林生态系统,涵盖南定省、太平省和海防市,地处红河三角洲西部东京湾沿岸,2004年被联合国教科文组织指定为生物圈保护区。该区域红树林沿海岸线延伸约80公里,总面积约9577公顷,占越南红树林总面积的5.8%。2023年11月至12月干季期间,研究人员在101个10米×10米样地中开展了密集野外调查,采集了101个土壤岩芯(深度100厘米),分层为0-15、15-30、30-50和50-100厘米四个深度区间,共获399个样品。

重金属分析采用微波辅助消解结合电感耦合等离子体质谱(ICP-MS)技术测定As和Pb浓度,通过认证参考物质MESS-3进行质量保证和质量控制,测量偏差控制在10%以内。卫星数据处理方面,研究使用了Sentinel-2A MSI、Sentinel-1A C波段SAR和ALOS-2 PALSAR-2数据,统一重采样至10米地面采样距离。从光学和雷达数据中提取了29个预测特征,包括11个Sentinel-2多光谱波段、8个植被指数(VI)、3个土壤辐射指数(SI)、5个ALOS-2 PALSAR-2 SAR变换特征以及2个Sentinel-1后向散射系数。

建模流程包括五个结为:(一)原始数据预处理、指数计算与特征整合;(二)将101个土壤岩芯的As和Pb实测浓度与提取特征耦合构建结构化表格数据集;(三)使用AutoGluon平台训练多个集成学习模型;(四)采用混合GA-PSO方法优化特征选择;(五)通过五折交叉验证评估和比较堆叠模型性能。AutoGluon自动训练了8个定制化模型,包括两个神经网络(NeuralNetFast和NeuralNetTorch)、随机森林(RF)、极端随机树(ET)以及三个梯度提升算法(CatBoost、XGBoost和LightGBM),外加一个加权集成模型。混合GA-PSO优化在AutoGluon框架内实现,种群规模为50,进化50代,以五折交叉验证的RMSE作为适应度评价指标。

三个建模情景进行了评估:情景1(SC1)包含全部29个输入特征;情景2(SC2)基于方差膨胀因子(VIF)筛选的10个低共线性预测因子;情景3(SC3)采用GA-PSO优选出的19个最优特征。

研究结果显示,红河三角洲红树林土壤中Pb和As浓度存在显著空间变异。Pb浓度范围为3.54-183.35 mg kg?1(均值75.33 mg kg?1),地累积指数(Igeo)为1.3,属中度污染;As浓度范围为0.49-166.46 mg kg?1(均值25.15 mg kg?1)。Pearson相关分析表明,As和Pb浓度与单个预测因子之间均呈弱线性关系(相关系数分别为-0.22至0.24和-0.21至0.27),提示重金属浓度并非由单一地表特征控制,而是受植被状况、水文动态、沉积物沉积和土壤理化性质之间复杂的非线性交互作用影响。

机器学习建模结果表明,二级加权集成模型一致优于所有一级基学习器,使用全部29个特征时R2均超0.75。GA-PSO优选的19个特征(SC3)取得了最佳预测性能:As的R2达0.816,RMSE为4.266 mg kg?1;Pb的R2达0.886,RMSE为6.293 mg kg?1。相比之下,VIF过滤的10个特征(SC2)表现最差,表明单纯基于共线性的特征剔除可能意外排除信息性预测因子。变量重要性分析揭示,对于As预测,红边1波段、蓝波段、MCARI、红边3及SAR后向散射特征(HH、HV、VV、VH)最为关键;对于Pb预测,红边2波段占主导地位,其次是VH、HV等SAR后向散射分量。传统植被指数如NDVI、EVI-2、SAVI、GNDVI和红光、近红外等基础反射波段重要性较低。

空间预测制图显示,As预测浓度范围为9.99-52.83 mg kg?1(均值23.64 mg kg?1),Pb为34.38-107.43 mg kg?1(均值67.23 mg kg?1),与实测值高度吻合。高浓度区域主要集中在海防市和太平省沿海,南定省及Xuan Thuy拉姆萨尔湿地浓度相对较低。

讨论部分指出,这是首个在红树林环境中采用交叉验证进行基于回归的重金属预测研究。GA-PSO方法通过平衡特征相关性与冗余性显著改善模型泛化能力,而简单VIF过滤因信息损失导致预测性能下降。SAR衍生结构指标(特别是HV后向散射和HH/HV比值)以及红边波段的高重要性,凸显了地表结构和植被生理状态在重金属预测中的关键作用。然而,多光谱和SAR数据在高浓度区域存在传感器饱和现象,As超过40 mg kg?1、Pb超过100 mg kg?1时预测精度下降,限制了模型在严重污染热点识别中的应用。红树林物种差异可能混淆光谱和SAR信号,未来研究需纳入物种信息以区分植被效应与真实污染信号。

研究结论指出,该加权集成模型为红树林土壤As和Pb浓度预测提供了显著潜力。基础模型使用全部29个特征时As和Pb的R2分别为0.756和0.790,RMSE分别为4.802和8.247 mg kg?1;整合GA-PSO特征选择后R2提升至0.816和0.886,RMSE降低至4.266和6.293 mg?1,明显优于传统VIF过滤方法。特征重要性分析表明Sentinel-2 MSI红边波段、SAR衍生结构指标和SWIR波段在重金属预测中发挥关键作用,而NDVI、SAVI、GNDVI等植被指数及红光、近红外基础反射波段重要性相对较低。该方法的进一步探索可增强其泛化性和可扩展性,实现全球红树林生态系统的更广泛应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号