在复杂环境中寻找方向:利用决策树制定最佳鱼类消费指南

《ACS Environmental Au》:Navigating the Waters: Decision Trees for Optimal Fish Consumption Guidelines

【字体: 时间:2026年03月24日 来源:ACS Environmental Au 7.7

编辑推荐:

  高分辨率图像 下载MS PowerPoint幻灯片 在淡水鱼类中监测汞含量对于环境科学、公共卫生以及原住民社区的福祉至关重要,因为汞具有持久性和毒性。准确描述长度与汞含量之间的关系是环境监测、风险评估和制定鱼类消费指南的核心。然而,大多数监测项目依赖于单一的默认模型,通

  高分辨率图像
下载MS PowerPoint幻灯片

在淡水鱼类中监测汞含量对于环境科学、公共卫生以及原住民社区的福祉至关重要,因为汞具有持久性和毒性。准确描述长度与汞含量之间的关系是环境监测、风险评估和制定鱼类消费指南的核心。然而,大多数监测项目依赖于单一的默认模型,通常是log-log或幂律回归,这可能会错误地反映不同湖泊-物种组合之间的真实模式。本研究引入了一种基于决策的回归框架,该框架使用预定义的统计标准评估多个候选模型,并结合敏感性分析来评估模型的稳定性。将这一框架应用于安大略省北部的社区监测数据,发现长度与汞含量之间的关系在形式和强度上存在显著差异。没有一种模型类型是普遍最优的;一些湖泊-物种组合显示出较弱或不存在的关系,表明基于自动回归的方法可能会产生误导性的估计。敏感性分析(留一法交叉验证和异常值诊断)揭示了在数据有限或生物异质性较高的群体中模型的脆弱性,强调了明确进行不确定性评估的必要性。这种灵活且透明的方法提高了方法论的严谨性,支持了可靠的生态解释,并增强了汞暴露估计的准确性。该框架降低了偏倚暴露估计的风险,增强了消费指南的科学合理性,并提供了一种可复制的、适应性强的建模工作流程,适用于各种环境监测项目,特别是在北部、偏远地区或由社区主导的监测项目中。

1. 引言
鱼类是重要的营养来源,提供高质量的蛋白质、欧米伽-3脂肪酸和其他必需营养素。(1) 对许多社区来说,尤其是原住民和偏远地区的社区而言,鱼类不仅仅是食物;它们还是食物主权、文化认同和精神实践的核心。(2,3) 对鱼类的这种深度依赖也增加了这些社区对水生生态系统中污染物的脆弱性,而汞就是其中之一。鱼类体内甲基汞的存在和积累对经常食用鱼类的社区构成了严重的健康威胁。(4?6) 鱼类中的汞含量因物种和湖泊而异。(7) 通常,处于较高营养级的物种(如梭鱼和鲈鱼)比处于较低营养级的物种(如白吸盘鱼和黄鲈鱼)积累更多的汞。(8) 鱼类中的汞积累受多种流域尺度和湖泊尺度变量的影响,包括湖泊大小、植被覆盖以及物理化学和生物特性;然而,最近的研究表明,这些因素的强度和相关性往往因物种而异,并受到营养生态的影响。(8?10) 汞通过水生食物网放大,营养级放大因子(TMFs)通常大于1;因此,营养级强烈影响长度与汞含量的关系(Lavoie等人,2013年)。(11) 观察到的最一致的模式是鱼类大小与汞含量之间的正相关关系,较大的鱼类通常含有更高的汞含量。(12?14) 这部分是因为鱼类大小通常与年龄相关,而较老的鱼类有更多时间通过饮食积累汞。(14) 然而,在北部地区,这种大小-年龄关系更为复杂,因为生长速度较慢且变化较大,这主要是由于温度较低和生长季节较短。(15,16) 体生长稀释和热能代谢可以在快速生长或高代谢周转率的情况下降低组织中的汞含量,从而削弱简单的长度-汞含量关系。(17) 因此,相同大小的鱼类可能在年龄上存在显著差异,使得长度与汞含量之间的关系变得复杂。

在不同地区和监管框架中,鱼类消费建议被广泛用作公共卫生风险沟通和管理工具,以平衡鱼类的营养价值与污染物暴露风险,特别是甲基汞的风险。(18?22) 例如,在加拿大安大略省,安大略省环境、保护和公园部会发布鱼类消费建议,根据污染物水平提供关于可安全食用的鱼类种类和数量的建议。(7) 尽管这些建议是污染物风险管理框架的核心组成部分,但证据表明,公众对建议信息的认知、理解和行为采纳程度可能有所不同,在某些情况下甚至有限。(23,24) 许多建议系统使用通用统计模型来估计汞含量,最常见的是跨物种和大小的幂律回归(7,14,25),这可能会简化生态和生物能量的异质性,尤其是在数据有限或北部地区。

本研究的目的是利用来自Michipicoten第一民族领地的社区监测数据,确定估计鱼类中汞含量的最合适的统计模型。通过应用一种灵活的基于决策的回归框架,本研究旨在提高汞含量估计的准确性和可靠性,并增强公共卫生指导。最终,我们的方法提供了一种透明且可复制的手段,可以广泛采用,从而改善环境健康评估,并为依赖鱼类消费的社区提供明智的决策支持。

本研究通过引入一种基于决策的回归框架,系统地评估了长度-汞模型的适当性、稳定性和不确定性,提供了新的分析进展。与大多数建议协议中使用的标准log-log方法不同,我们的方法量化了模型的脆弱性(使用Cook距离、LOO-CV和模型转换率),并防止了模型形式的错误分类。这些贡献提高了污染物暴露评估的方法论严谨性。通过嵌入明确的决策标准和稳健性诊断,该工作流程增强了环境决策支持,提高了监测项目的可重复性,增强了监管的合理性,并为数据有限的环境评估提供了透明的指导。

2. 方法
2.1. 研究区域和社区为基础的采样
本研究与位于加拿大安大略省北部苏必利尔湖东北岸的Michipicoten第一民族合作进行。鱼类样本由当地渔民捐赠,作为支持食物主权、环境管理和文化尊重知识共同生产的一部分的社区监测计划的一部分。2023年和2024年,社区成员从九个水体中采集了鱼类样本,包括七个内陆湖泊(Anjigami湖、Borden湖、Dog湖、Goudreau湖、Hawk湖、White湖和Whitefish湖)以及苏必利尔湖中的Jones Landing和Michipicoten湾(图1)。

图1
图1. 安大略省北部七个采样地点的地图(Anjigami湖、Borden湖、Dog湖、Goudreau湖、Hawk湖、Jones Landing、Michipicoten湾、White湖和Whitefish湖)。

分析中包含的物种是根据它们的文化重要性、消费频率以及在营养级中的代表性选择的。这些物种包括北方梭鱼(Esox lucius)、鲈鱼(Sander vitreus)、湖鳟鱼(Salvelinus namaycush)、小口黑鲈(Micropterus dolomieu)、湖白鱼(Coregonus clupeaformis)和鲱鱼(Osmerus mordax)。对于每种鱼类,记录了以下数据:物种、总长度、叉长、重量、性别(如果可能的话)、采样地点(湖泊)和捕获日期。从每条鱼的背鳍后面取了一小块肌肉组织,使渔民可以保留其余部分用于食用。这种方法确保了最小的浪费,并尊重了社区的采集习惯。所有组织样本都在现场保存在冰上,然后冷冻至-20°C,直到运送到实验室进行分析。

2.2. 实验室分析
收到渔民提供的组织样本后,从每条鱼中提取约3-5克肌肉组织并送往认证的分析实验室进行金属分析。简要来说,大约1克组织被均质化后,通过冷蒸气原子吸收法(CVAA)(Teledyne/CETAC M7600.2汞分析仪)(参见EPA SW846方法7471B)进行汞分析。(26) 汞含量以湿重每克微克(μg/g)报告。实验室遵循质量保证和质量控制(QA/QC)协议,包括使用方法空白、样本重复样本和认证参考材料,以确保结果的准确性、精确性和可靠性。仪器校准相对于商业来源和认证的标准(Inorganic Vantures,产品编号:CGHG1)进行。剩余的样本部分被保留用于存档或未来的分析。

2.3. 数据准备
数据清洗过程中排除了鱼类长度或汞含量缺失或无效的记录。总长度测量值转换为厘米以便统一。为了建模目的创建了两个新变量:
log_length:鱼类长度的自然对数
log_mercury:汞含量的自然对数

2.4. 建模方法
2.4.1. 探索性数据分析
初步数据分析用于评估数据集的结构、分布和质量。探索性数据分析包括按湖泊-物种组划分的鱼类长度和汞含量的汇总统计。使用热图可视化汞生物积累的空间和物种特异性模式。生成了长度与汞含量的散点图,以评估不同组之间的关系形式和变异性。

2.4.2. 主要分析:基于决策的回归框架
使用逐步建模框架来确定每个湖泊-物种组合的最佳拟合模型(图2)。这种方法优先考虑简洁性和可解释性,从简单模型逐步过渡到更复杂的模型。每个候选模型都根据预定义的解释力(R2)和统计显著性(p值)阈值进行评估。选择R2阈值为0.5,以确保保留的模型能够捕捉到有意义的比例的变异,同时对于由于自然生态变异性而无法达到较高解释力的较小、特定于湖泊的数据集也是可行的。

图2
图2. 选择基于鱼类长度估计鱼类中汞含量的最合适的统计模型的决策框架。该过程从非转换数据的线性回归开始,然后逐步进行更复杂的转换和模型类型选择,选择标准基于R2值(>0.5)和p值(≤0.05)。如果没有任何模型满足这些阈值,则计算平均汞含量。

对于每个湖泊-物种组合,我们拟合了三种候选形式:
(1) 线性(原始尺度),y = a + b·x
(2) Log-线性(非转换数据),log(y) = a + bx;
(3) 幂律 y = ax^b,通过log-log转换估计,即log(y) = log(a) + b·log(x)。每个候选模型代表长度与汞含量之间的不同功能关系。只有当模型满足我们的先验性能标准R2 > 0.50和p ≤ 0.05时才被选中。这些阈值旨在平衡鱼类汞数据集中的高生物和环境变异性与保留有意义解释力的需求。在应用生物监测的背景下,汞含量受多种未测量因素的影响(例如,个体生长历史、饮食变化、湖泊特定条件),因此很难达到非常高的R2值。因此,R2阈值0.50反映了一个实际的标准,表明鱼类长度解释了观察到的变异性的很大一部分,而显著性阈值确保了这种关系不太可能是偶然出现的。这些标准共同支持了保守且可解释的模型选择,而不会施加过于严格的要求,从而排除具有生态意义的模式。如果上述模型都不满足最小拟合和显著性阈值,则计算该湖泊-物种组合的平均汞含量(即不报告回归结果)。在没有可靠预测模型的情况下,这些平均值用于指导消费。当未满足最低标准时拒绝回归对于防止虚假精确性和避免强加可能误导暴露评估的无效功能形式至关重要。对于在log尺度上拟合的模型,使用Duan的涂抹估计器来校正反转换偏差。(27)

主要模型选择使用了完整的数据集。然后我们使用Cook距离和留一法交叉验证(LOO-CV)来评估影响力和稳健性。有影响力的案例被标记出来,但未从主要分析中移除;LOO-CV量化了决策变化率(分析决策与全数据选择不同的折叠比例)。

2.4.3. 敏感性分析和模型稳健性
为了评估模型选择过程的稳健性,进行了两项互补的敏感性分析。首先,我们通过比较去除高Cook距离(阈值>0.5)的观测值前后的模型选择结果来评估有影响力数据点的影响。这使我们能够确定异常值是否影响了每个湖泊-物种组合所选择的模型类型。其次,对于最初选择了回归模型(而不是组平均值)的每个组,我们实施了留一法交叉验证(LOO-CV)程序。在此分析中,每次移除一个观测值,并重新拟合模型到减少的数据集。我们跟踪了最佳拟合模型类型在迭代中变化的频率,并量化了关键模型参数的变异性,即决定系数(R2)和斜率。

为了识别潜在不稳定或“脆弱”的模型选择,我们对这些指标应用了特定的阈值。如果超过50%的留一法(LOO)迭代导致模型切换,或者R2的标准差超过0.05,或者斜率的标准差大于0.1,则认为某个湖泊-物种组合是脆弱的。这些标准提供了一种结构化的方式,用于识别数据中的微小变化对模型选择或性能有显著影响的案例,表明这些组的模型鲁棒性有限。

2.4.4 消费指南计算
我们基于加拿大对甲基汞的每日可耐受摄入量(TDI)来确定允许的摄入量,定义为终生摄入的最大汞剂量(μg Hg/kg体重/天),而不会对健康产生不良影响。(19) TDI是特定于人群的:育龄妇女、孕妇、儿童和以捕鱼为生的猎人为0.2 μg Hg/kg体重/天,而非生育年龄的成人为0.47 μg Hg/kg体重/天。(19) 这些数值用于将预测的鱼类汞浓度转换为允许的鱼类消费量。我们遵循Miceli等人(2025年)的周度惯例,而不是按月度格式进行报告。(28)
鱼类的安全摄入量表示为食物摄入耐受量(FIT),定义为在不超过基于汞的TDI的情况下可以摄入的鱼的质量。首先使用以下公式计算每周(7天)的允许摄入量(FITw):
FITw = TDI × 7天 × 体重(kg)
其中TDI是每日可耐受的甲基汞摄入量(μg Hg/kg体重/天),不会超出指南限制。体重(kg)是以千克为单位的人体重量,Cfish是鱼组织中的汞浓度(μg Hg/克鱼)。对于没有满足回归标准的湖泊-物种组合,Cfish被设定为该组观察到的平均汞浓度。这种公式得出了每周允许的鱼类消费量(以克为单位)。

为了与安大略省的鱼类消费建议惯例保持一致,FITw值随后通过除以安大略省环境、保护和公园部定义的标准份量227克鱼来转换为每周的标准份量。这种份量转换仅在报告阶段应用,不影响底层的汞剂量计算。

所有分析中使用的汞浓度代表鱼肌肉组织中测量的总汞(THg)。出于消费指南计算的目的,THg被用作甲基汞(MeHg)的替代指标,这与鱼类消费建议和环境健康风险评估中的常见做法一致。在鱼肌肉组织中,MeHg通常占THg的大部分,通常超过80-95%,特别是对于食鱼物种。(29,30)

2.4.5 软件和包
所有统计分析都是使用R(4.4.2)在RStudio(2025.05.1 + 513)中进行的。(31,32) 数据处理、模型拟合和可视化是使用以下R包完成的:tidyverse、readxl、lme4、MuMIn、performance、patchwork、ggalluvial、performance和ggplot2。

2.4.6 伦理和社区考虑
所有数据收集都是在Michipicoten第一民族的知情同意和积极参与下进行的。研究遵循OCAP原则(所有权、控制、访问和持有),确保社区对其数据的使用、解释和共享拥有权威。

3. 结果
初步数据探索显示,不同湖泊-物种组合之间的鱼长度和汞浓度存在显著差异(表1)。平均汞浓度范围从低至0.06 μg/g到超过0.7 μg/g不等,鱼的长度在某些情况下从不到30厘米到超过70厘米不等。
表1. 所有湖泊-物种组合的鱼长度(cm)和总汞浓度(μg/G湿重)的摘要统计
| 湖泊-物种 | 长度平均值(cm) | 汞浓度平均值(μg/G湿重) |
| --- | --- | --- |
| Anjigami Lake | 鲑鱼 | 49.6 ± 5.9 (42.0–62.3) | 0.599 ± 0.226 (0.332–1.138) |
| Anjigami Lake | 鲷鱼 | 122 | 9.9 ± 6.3 (21.2–41.0) | 0.460 ± 0.188 (0.059–0.789) |
| Borden Lake | 鲑鱼 | 145 | 2.8 ± 7.4 (35.5–61.5) | 0.236 ± 0.111 (0.059–0.541) |
| Borden Lake | 鲷鱼 | 203 | 1.2 ± 7.2 (25.1–55.0) | 0.164 ± 0.124 (0.087–0.661) |
| Dog Lake | 鲑鱼 | 224 | 9.8 ± 11.0 (34.7–77.1) | 0.456 ± 0.319 (0.137–1.247) |
| Dog Lake | 鲷鱼 | 203 | 2.4 ± 4.3 (24.5–43.4) | 0.175 ± 0.040 (0.101–0.261) |
| Goudreau Lake | 鲑鱼 | 405 | 4.2 ± 4.6 (45.1–63.0) | 0.617 ± 0.147 (0.361–0.986) |
| Hawk Lake | 白鱼 | 184 | 7.8 ± 3.8 (40.7–53.5) | 0.161 ± 0.078 (0.066–0.337) |
| Jones Landing | 鲱鱼 | 153 | 7.1 ± 4.2 (29.2–47.0) | 0.056 ± 0.017 (0.027–0.082) |
| Michipicoten Bay | 湖鳟鱼 | 114 | 9.4 ± 3.9 (42.7–57.4) | 0.113 ± 0.032 (0.069–0.156) |
| White Lake | 鲑鱼 | 165 | 4.6 ± 8.1 (41.5–73.7) | 0.359 ± 0.212 (0.118–0.844) |
| Whitefish Lake | 小口黑鲈 | 192 | 9.6 ± 5.6 (16.6–41.7) | 0.289 ± 0.114 (0.089–0.527) |

表1中的数值以平均值±标准差的形式呈现,括号内显示了完整范围。这些描述性统计反映了去除异常值之前的整个数据集,并用于指导对长度-汞关系的初步探索。
通过湖泊和物种的平均汞浓度热图(图3)进一步突出了生物积累模式的空间和分类学差异。
图3. 每个湖泊-物种组合的平均汞浓度(μg/g湿重)热图。较深的颜色表示较高的平均汞水平,突出了汞生物积累的空间和物种特异性差异。
高分辨率图像
下载MS PowerPoint幻灯片

长度与汞浓度的散点图(图4)提供了湖泊-物种组合数据变异性的初步可视化。这些图表突出了关系强度和方向的显著异质性,以及样本大小和数据分布的差异。
图4. 按物种分组并按湖泊着色的鱼长度(cm)与总汞浓度(μg/g)之间的关系散点图。每个面板代表一个物种,点代表从多个湖泊中采样的单个鱼。这些图表用于初步的视觉探索,以评估数据结构的变异性,识别潜在的异常值,并在正式模型拟合之前评估长度-汞关系的一般形式。散点图中显示的样本大小反映了完整的数据集。在去除Cook距离(阈值>0.5)确定的有影响力的异常值后进行了建模和敏感性分析。
高分辨率图像
下载MS PowerPoint幻灯片

使用Cook距离在六个不同的湖泊-物种组中发现了几个异常值;这些在模型敏感性分析期间被标记和评估。

3.1 主要模型选择:基于决策的回归框架
在分析的12个湖泊-物种组合中,有六个组合的回归模型满足了我们的选择标准,而其余六个组合则最好用它们的平均汞浓度来表示(表2)。在选定的模型中,线性(原始)回归最为常见(六个中有四个),而在两个组合中选择了幂律模型。没有任何湖泊-物种组合的对数-线性模型满足选择标准。重要的是,模型选择在不同湖泊中的物种之间并不一致;例如,一种湖泊中的鲈鱼最好用幂律关系描述,而在其他湖泊中则用线性模型或没有回归。在六个被接受的回归中,模型拟合的R2范围从0.56到0.76(表2)。

表2. 不同湖泊中鱼类物种的最终模型选择结果,显示了应用的模型类型、决定系数(R2)和P值
| 湖泊-物种 | 模型类型 | R2 | p值 |
| --- | --- | --- | --- |
| Anjigami Lake | 鲑鱼 | 线性回归(原始) | 0.62 | ≤0.05 |
| Anjigami Lake | 鲷鱼 | 平均值 | NAN |
| Borden Lake | 鲑鱼 | 线性回归(原始) | 0.71 | ≤0.05 |
| Borden Lake | 鲷鱼 | 平均值 | NAN |
| Dog Lake | 鲑鱼 | 线性回归(原始) | 0.72 | ≤0.05 |
| Dog Lake | 鲷鱼 | 平均值 | NAN |
| Goudreau Lake | 鲑鱼 | 平均值 | NAN |
| Hawk Lake | 白鱼 | 线性回归 | 0.56 | ≤0.05 |
| Jones Landing | 鲱鱼 | 平均值 | NAN |
| Michipicoten Bay | 湖鳟鱼 | 线性回归 | 0.56 | ≤0.05 |
| White Lake | 鲑鱼 | 幂律回归 | 0.66 | ≤0.05 |
| Whitefish Lake | 小口黑鲈 | 幂律回归 | 0.76 | ≤0.05 |

当没有合适的回归模型被识别时,使用“平均值”模型;而对于满足选择标准的湖泊-物种组合,则使用线性和幂律回归模型。

3.2 敏感性和模型选择
为了评估模型选择的鲁棒性,我们比较了去除有影响力异常值前后的结果(Cook’s D > 0.5)。在12个湖泊-物种组中有2个组发生了模型切换,表明虽然大多数模型选择是稳定的,但有些对有影响力的数据点敏感。这种比较使用冲积图(图5)进行了可视化,说明了模型选择随着异常值的去除而变化的情况。
图5. 冲积图显示了在去除有影响力的异常值(Cook’s距离>0.5)之前和之后每个湖泊-物种组最佳拟合模型类型的转换。灰色条带表示模型选择不变,橙色条带表示模型类型之间的转换;对数-线性类别在主条形上方单独显示,因为最初没有组选择这个模型,但在去除异常值后有一个组选择了它。
高分辨率图像
下载MS PowerPoint幻灯片

我们通过在一个留一法交叉验证(LOO-CV)框架中重新拟合所有候选模型,并计算选定模型发生变化的折叠比例(LOO决策变化率;图6)来评估模型鲁棒性。对于全数据选择为平均值的湖泊-物种组合,这个指标代表了提升率,即任何模型满足我们事先接受规则(R2 > 0.50, p ≤ 0.05)的频率。
图6. 每个湖泊-物种组合的留一法交叉验证(LOO-CV)迭代中最佳拟合模型类型发生变化的比例。较高的比例表示模型不稳定性较高。Michipicoten Bay湖鳟鱼表现出最频繁的转换(0.54),表明对单个数据点高度敏感。相比之下,Dog Lake的鲈鱼在所有迭代中都表现出完全的模型稳定性。
高分辨率图像
下载MS PowerPoint幻灯片

在整个数据集中,有几个组合没有发生转换(LOO决策变化率=0),表明决策非常稳定。这些包括Jones Landing的鲱鱼、Hawk Lake的白鱼、Goudreau Lake的鲈鱼和Borden Lake的鲈鱼。对于每个组合,没有LOO折叠产生满足选择规则的模型,因此“使用平均值”的决策是稳健的。在选定了回归的组合中,Anjigami Lake的鲈鱼和Dog Lake的鲈鱼表现出完全的稳定性(决策变化率=0),而Borden Lake的鲈鱼显示出非常低的敏感性(决策变化率=0.05),支持选定的线性(原始)模型。尽管Borden Lake的鲈鱼在折叠中显示出轻微的参数变化,但这种变化的幅度很小,不会影响整体决策。White Lake的鲈鱼表现出中等的敏感性(决策变化率=0.13),同时也表现出斜率的升高变化,而Whitefish Lake的小口黑鲈显示出有限的转换,但R2和斜率估计的变异性较高。这些模型是可以使用的,但应谨慎解释。最后,Michipicoten Bay湖鳟鱼的鲁棒性很高(LOO决策变化率≈0.55),并且在折叠中显示出显著的斜率变化,表明选定的功能形式对单个鱼的缺失不稳定。对于这种组合,依赖平均值或更保守的建模方法是必要的。

当湖泊-物种组合出现以下任何情况时,我们将其标记为脆弱的:高模型切换(>50%)、R2标准差>0.05或斜率标准差>0.10。五个组合的决策变化率为0(没有提升),一个组合的提升率约为0.08(表S1)。在评估的六个基于模型的湖泊-物种组中,有四个被分类为脆弱(表3)。
表3. 在全数据上选择回归的湖泊-物种的留一法(LOO)敏感性
| 湖泊-物种 | 最佳模型 | n | 切换次数 | Prop切换 | R2平均值 | R2标准差 | 斜率平均值 | 斜率标准差 | 高R2变异性 | 高斜率变异性 | 脆弱模型 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| Anjigami Lake | 鲑鱼 | 线性原始 | 21 | 0 | 0.00 | 0.62 | 0.04 | 0.00 | FALSE | FALSE | FALSE |
| Borden Lake | 鲑鱼 | 线性原始 | 12 | 1 | 0.05 | 0.73 | 0.02 | 0.01 | 0.00 | FALSE | FALSE |
| Dog Lake | 鲑鱼 | 线性原始 | 22 | 0 | 0.00 | 0.72 | 0.03 | 0.02 | 0.00 | FALSE | FALSE |
| Michipicoten Bay | 湖鳟鱼 | 线性原始 | 11 | 6 | 0.55 | 0.60 | 0.05 | 1.11 | 1.52 | FALSE | TRUE | TRUE |
| White Lake | 鲑鱼 | 幂律 | 16 | 2 | 0.13 | 0.67 | 0.04 | 29.2 | 1.13 | FALSE | TRUE | TRUE |
| White Lake | 小口黑鲈 | 幂律 | 19 | 10 | 0.05 | 0.76 | 0.05 | 1.70 | 0.41 | TRUE | TRUE |

表S1总结了“脆弱”组合的详细信息。

总体而言,LOO-CV表明大多数平均决策非常稳健,而一些模型选择案例表现出不稳定性,这是由频繁的决策变化或参数变异性驱动的。这些诊断支持保守的报告策略;在未满足标准时保留平均值,并明确标记出敏感的模型。

4. 讨论
在这项研究中,我们使用基于决策的回归框架评估了不同湖泊-物种组合中鱼长度和汞浓度之间的关系。我们的方法不同于汞生物监测中的普遍做法,后者通常默认应用幂律回归。(7,25,33?35) 相反,我们应用了明确的性能标准(R2 > 0.5, p ≤ 0.05)来选择最合适的模型,或者在没有找到满意模型的情况下,我们报告了该组的平均汞浓度。尽管我们的数据来自五大湖北部地区,但我们解决的建模挑战——在异质且通常有限的样本下选择合理的长度-汞关系——在世界各地的淡水系统中普遍存在,并且越来越多地影响各地区的建议实践。更广泛地说,这种基于标准的工作流程可以推广到其他生物监测应用,其中模型形式在不同地点或物种之间有所不同,包括污染物、营养-生物体关系以及其他需要在数据有限条件下进行合理模型选择的生态指标。
尽管汞的生物积累最终受湖泊特定生物地球化学过程的控制,包括pH依赖的物种形成、溶解有机碳、硫酸盐驱动的微生物甲基化、氧化还原条件以及食物网碳路径,但这些变量并未直接包含在回归模型中。(8?10,36,37) 鱼类消费建议计划和长期监测数据集通常依赖鱼长度作为最容易获取且在不同湖泊、物种和地区之间一致收集和比较的预测因子,而详细的水化学、土地利用、同位素或年龄数据往往不可用或测量不一致。(25,38,39) 因此,我们的框架优先考虑在建议背景下常规可用的预测因子,同时基于对汞循环的既定机制理解。因此,基于决策的工作流程旨在补充而不是替代生物地球化学或食物网明确的汞模型。我们的发现强调了这种灵活性的重要性。尽管线性(原始数据)和幂律模型在一半的湖泊-物种组合中被选中,并且有时能够提供很好的拟合效果,但没有一种单一的模型类型能够在所有湖泊-物种对中都表现出普遍的最佳性能。这种异质性表明,长度与汞含量之间的关系因物种和系统的不同而有所差异,这进一步强调了基于标准进行模型选择的重要性,而不是依赖于物种级别或区域范围内的默认形式。对于包括博登湖梭鱼和博登湖鲈鱼在内的几个群体,长度与汞含量的关系较弱或不存在,所有候选的回归模型都未能达到质量阈值(图5)。在这些情况下,基于决策的方法避免了错误的功能关系的强加。这些结果提醒我们不要将单一的功能形式推广到不同的地区或物种;相反,监管机构和监测项目可以采用基于标准的选择方法,以避免在暴露估计中产生系统性偏差。在整个数据集中,最常用的默认幂律模型仅在12个湖泊-物种组合中的2个中满足了最低质量标准。决策树框架通过允许在数据支持的情况下使用替代的功能形式,在12个组合中的6个中识别出了合理的回归关系。同时,该框架明确拒绝了在其余情况下使用回归分析,从而防止了统计上较弱或生态上不成立的幂律关系的常规应用。这些结果表明,基于决策的工作流程显著降低了预测偏差的风险,并提高了汞暴露估计的方法学稳健性。

这种基于过程的建模策略与美国环保署(EPA)和国家海洋和大气管理局(NOAA)推荐的最佳实践一致,这些机构强调需要根据具体情况选择模型,并对模型的拟合度和显著性进行关键评估。(40,41)通过明确标记出未检测到可靠长度-汞含量关系的群体,我们的框架在生态和人类健康背景下促进了更准确的风险评估和沟通。

我们的敏感性分析(Cook距离和留一法交叉验证)显示,一部分湖泊-物种模型选择结果较为脆弱,特别是在样本量小或生物异质性高的情况下。最明显的例子是米奇皮科滕湾湖鳟鱼,其LOO决策变化率(约0.55)和R2变异性很高,表明所选模型对单个样本的缺失非常敏感。其他几个模型选择的组合也值得谨慎对待:博登湖鲈鱼、白湖梭鱼和白鱼湖小口黑鲈鱼的敏感性适中(决策变化率约为0.05–0.13)。相比之下,许多湖泊-物种组合显示出较强的决策稳定性。多个群体(例如琼斯兰丁鲱鱼、霍克湖白鱼、古德罗湖梭鱼、多格湖鲈鱼和博登湖梭鱼)在LOO-CV测试下没有发生变化,这支持了保留群体平均值而不是强制应用回归模型的决定。总体而言,这些模式表明长度-汞含量关系的不稳定性并非普遍存在,而是集中在特定的湖泊-物种组合中,这进一步强调了将稳健性诊断纳入小样本生物监测工作流程中的重要性。(42)鉴于小样本量和生物异质性是全球许多监测项目中的常见限制因素,我们建议将稳健性诊断作为报告长度-汞含量回归的常规要求。

更广泛地说,模型脆弱性成为解释基于回归的汞含量估计时的一个关键考虑因素。留一法交叉验证表明,即使是在统计上可接受的模型也可能对轻微的数据扰动敏感,导致模型形式的变化或参数估计的显著波动。这种脆弱性突显了将稳健性诊断纳入生物监测工作流程的重要性,并支持在模型可靠性受损时采用保守的报告策略,例如默认使用群体平均值。这种方法提高了透明度,确保了消费建议基于稳定且可辩护的估计。

虽然我们的研究基于五大湖北部生态系统,但我们面临的建模挑战——如异质的鱼类-汞数据集、不均匀的长度-汞含量关系以及脆弱的回归形式——在全球汞生物监测中是普遍存在的。由于甲基汞的生物积累受到pH值、DOC(溶解有机碳)、硫酸盐、氧化还原条件和食物网碳路径的化学影响,我们的框架广泛适用于具有不同生物地球化学条件的湖泊。因此,这种方法为不同淡水系统中的环境暴露建模和污染物风险评估提供了普遍适用的好处。

4.1. 说明性示例及对模型选择的启示

尽管幂律回归(尤其是在对数转换后)在汞-长度研究中被广泛使用,但我们的结果表明这种方法并不总是合适的。为了说明这一点,我们提供了两个对比示例,其中幂律模型的表现与框架选择的替代模型不同。对于博登湖梭鱼,线性模型被选为最合适的汞-长度关系表示方法。尽管在转换后的数据上拟合的幂律模型在统计上显著,但它预测的较大尺寸下的汞浓度高于选定的线性模型(图7)。

图7. 博登湖梭鱼的示例。(A)在转换后的数据上拟合的幂律回归,并在原始尺度上绘制,显示出中等拟合度(R2 = 0.57,p = 4.7 × 10–5;斜率 = 2.42)。(B)在未转换的尺度上拟合的线性(原始数据)回归,显示出更好的拟合度(R2 = 0.72,p = 6.5 × 10–7;斜率 = 0.025)。

对于米奇皮科滕湾湖鳟鱼,再次选择了线性(原始数据)模型,但方向相反。在转换后的数据上进行的幂律回归解释了中等程度的方差(R2 = 0.56),但低估了较大尺寸下的汞含量。直接在原始尺度上拟合的线性模型达到了类似的拟合度(R2 = 0.56)(图8)。

这些示例表明,幂律模型并不总是表现出一致的方向性偏差:根据湖泊-物种组合和尺寸范围的不同,它们可能会高估或低估预测的汞含量。综合来看,这些案例强调了自动默认设置(无论是幂律曲线还是对数转换)可能导致误导性推断,而灵活的基于标准的模型选择则能产生更稳健的结果。这些启示扩展到了消费建议和指南的制定上。对于博登湖梭鱼(60厘米),选定的线性模型建议一般人群每周摄入3-8份,敏感人群每周摄入1-3份;而幂律模型则将摄入量减少到一般人群2-5份,敏感人群0-2份(表4)。对于米奇皮科滕湾湖鳟鱼(50厘米),模型选择的结果则相反:幂律模型允许更大的摄入量(一般人群每周最多11-31份,敏感人群4-13份),而线性模型则将摄入量减少到一般人群4-11份,敏感人群1-4份(表4)。

这些对比案例展示了统计选择如何影响营养建议。在博登湖,过于保守的模型可能会不必要地限制具有文化和营养价值的鱼类;而在米奇皮科滕湾,不合适的模型可能会使消费者暴露于更高的汞含量。对于米奇皮科滕湾湖鳟鱼(约50厘米),不合适的幂律模型允许更大的每周摄入量;如果按照这些摄入量食用,而该尺寸下的汞含量接近框架选择的线性模型,那么每周的暴露量将超过TDI(即比TDI高出123%至171%,具体取决于体重类别)。偶尔食用野生鱼类可以提供蛋白质、欧米伽-3脂肪酸、硒和维生素D,并可以替代加工食品;因此,找到正确的平衡对于健康保护和食品安全至关重要。

这些考虑超出了本地范围,强调了可靠且可辩护的污染物估计对于环境健康保护和维护不同辖区之间建议一致性的重要性。此外,暴露计算假设鱼肌肉中的总汞(THg)近似于甲基汞(MeHg)。虽然这种假设在建议性应用中广泛使用,并且通常是保守的,因为大多数鱼组织中甲基汞占主导地位,但MeHg/THg的比例可能因物种、水体和营养级而异。因此,使用THg作为代理值会在允许摄入量的绝对值上引入不确定性。如果有系统或物种特定的MeHg比例数据,未来的应用可以直接纳入这些数据以改进摄入量估计并减少不确定性。

最后,我们的工作流程强调了在数据有限的情况下需要谨慎行事。明确的决策规则、视觉诊断工具和回退到平均值的选择使得该方法可以在不同机构和社区监测项目中应用,包括那些在原住民、农村或资源受限地区的项目。保守和透明的选择有助于防止虚假的精确性,并维护公众信任,特别是在建议指导依赖生计或具有文化意义的食品消费时。我们注意到,不同辖区在将汞监测数据转化为公开建议的方式上存在差异,从一般性指导到针对特定湖泊的建议都有。这些选择反映了在风险沟通、治理结构和社区背景方面的不同优先事项,包括在保护健康与维护食品安全和重要的文化捕鱼实践之间的平衡。这些不同的沟通方式对风险认知、饮食行为和食品安全的影响尚未系统评估,超出了本研究的范围。

从实施角度来看,这里提出的基于决策的回归框架与现有的鱼类监测和建议系统兼容。由于它依赖于常规收集的鱼类组织和汞含量数据,该框架可以无需修改现场采样协议即可纳入年度监测工作流程。在机构层面,该方法可以通过提供透明的、可重复的模型选择过程、不确定性记录以及判断何时适合使用回归模型以及何时应报告群体平均值来支持跨机构指南的制定。在基于社区和原住民领导的监测项目中,明确的决策规则和回退策略有助于清晰地传达不确定性,并支持制定符合当地优先事项的消费指南。重要的是,该框架旨在补充现有的监管流程,而不是取代它们,从而在不同辖区之间实现一致的应用,同时提高方法学的稳健性和建议结果的可辩护性。

淡水鱼类中的汞生物监测对于环境科学、公共卫生和原住民社区福祉至关重要,因为汞的持久性、毒性和在水生生态系统中的广泛存在。可靠地理解鱼类长度与汞含量的关系是解释暴露风险、制定准确的鱼类消费建议和评估生态系统管理干预措施成功的基础。尽管这一点得到了广泛认可,但许多现有的生物监测项目仍然严重依赖通用回归框架,这些框架假设不同物种、湖泊和生态背景下的关系是一致的。虽然这种标准化便于比较,但我们的发现强调,这种统一的方法可能无法充分反映生态现实,特别是考虑到鱼类生物学(如年龄、营养级、生长率)和环境变量(如湖泊大小、流域特征、气候条件)之间的复杂相互作用。因此,依赖通用模型可能会简化复杂的生物和生态关系,可能导致不准确的暴露估计、误导性的风险评估和效果较差的管理干预。

本研究采用的灵活的、基于决策的框架提供了一种替代且改进的方法论方法,该方法根据数据质量、生态背景和统计标准明确评估模型的适用性。通过透明地识别回归模型不可靠的情况,该方法支持更清晰的结果解释,鼓励数据驱动的决策制定,并提高监测程序的可信度。对于政策制定者、公共卫生机构和社区利益相关者来说,这种透明度至关重要。基于具体情境的科学评估的准确和清晰的汞建议有助于在原住民社区、休闲垂钓者和其他依赖鱼类作为食物资源的利益相关者之间建立更大的信任。此外,承认不确定性并明确记录模型无法充分描述汞积累的情况,可以确保更谨慎和可辩护的管理建议,这与环境政策和公共卫生实践中的预防原则更为一致。

尽管我们的研究基于五大湖北部生态系统,但我们面临的建模挑战——如异质的鱼类-汞数据集、不均匀的长度-汞含量关系和脆弱的回归形式——在全球汞生物监测中是普遍存在的。由于甲基汞的生物积累受到pH值、DOC(溶解有机碳)、硫酸盐、氧化还原条件和食物网碳路径的化学影响,我们的框架适用于具有不同生物地球化学条件的湖泊。因此,该方法为环境暴露建模和污染物风险评估提供了普遍适用的好处。首先,一些湖泊-物种组合的样本量较小(例如,n ≈ 10–15),这可能会降低统计功效,增加参数估计的不确定性,并放大异常值的影响。在这种情况下,真实的长度-汞关系可能难以检测到,估计的斜率或模型形式可能不稳定。由于本研究依赖于机会性监测数据而非实验性或前瞻性设计的采样计划(在这些情况下进行功效计算更为合适),因此没有进行正式的样本量功效分析。相反,基于决策的框架通过设定解释功效和统计显著性的最低阈值,并在这些标准未满足时默认使用组平均值来明确考虑小样本的局限性。敏感性分析(留一法交叉验证和Cook距离)有助于识别问题,但无法完全纠正斜率和R2值的膨胀变异性或掩盖的生物模式。

其次,由于缺乏与独立数据集的外部验证,我们模型在不同湖泊、物种或采样方案下的预测可靠性和泛化能力仍然不确定。

最后,尽管基于阈值的决策(例如,固定的R2值和p值截止值)可以提高透明度和一致性,但它们具有内在的任意性:微小的调整就可能导致模型选择结果的变化。未来的工作应纳入独立数据集进行验证,并考虑使用分层、贝叶斯或模型平均等方法来更好地捕捉不确定性和生态变异性。

除了为模型选择和消费建议提供信息外,基于决策的框架还可以用于支持社区和机构关于未来采样优先级的决策。通过明确识别那些关系不稳定、较弱或数据有限的湖泊-物种组合(例如那些默认使用组平均值或敏感性诊断失败的案例),该框架可以指出哪些地方需要额外的采样。相反,那些始终满足选择标准并在敏感性分析中显示出稳定关系的组合可能不需要进行密集采样。在基于社区的监测背景下,这些诊断信息可以共同用于指导有限的采样资源分配、细化感兴趣的样本范围,或针对特定季节或栖息地进行采样,以减少未来评估的不确定性。这样,该框架不仅作为一种分析工具,还作为一种透明的规划辅助工具,将监测结果直接与适应性采样设计联系起来。

除了我们的案例研究之外,还需要认识到当前框架使用鱼的长度作为主要的汞浓度预测因子。以标准化的方式扩展预测因子将有助于跨辖区的比较性和生态解释性的提高。虽然长度是累积暴露的一个实用代理指标,但汞的积累还受到鱼龄、营养位置和生长动态的影响——例如,相同长度的个体由于寿命、饮食或生长稀释的不同,其汞浓度可能会有显著差异。未来的研究应扩大预测因子的范围,包括关键的生物和环境协变量。例如,通过耳石环计数得出的鱼龄可以解释与生长相关的积累模式,从而区分出生长较慢的老年个体和生长较快的年轻个体,尽管它们可能属于相同的长度类别,但汞负担不同。同样,从δ15N和δ13C稳定同位素推断出的营养位置可以揭示食物网路径和饮食变化,这些变化会影响甲基汞的吸收,从而改善对长度-汞关系曲率或异方性的解释。此外,水化学参数(如溶解有机碳、pH值、温度和初级生产力指标)已被证明可以调节汞的甲基化速率和生物可利用性,这些参数可以作为连续协变量纳入同一基于决策的框架中,以提高模型的拟合度和生态解释性。气候变化和土地利用变化会影响生长速率、食物网结构和汞的甲基化途径,将这些协变量纳入模型对于在不断变化的环境背景下保持咨询模型的相关性至关重要。

采用更灵活的统计框架还将丰富我们对长度-汞动态的理解。非线性或阈值模型(例如分段回归、广义加性模型)可以揭示线性模型所忽略的渐近或临界点行为。分层混合效应模型自然能够适应嵌套结构(湖泊内的鱼类、区域内的湖泊),在不同尺度上划分变异性,并在采样不平衡的情况下提供更稳健的推断结果。通过与原住民社区共同开发研究设计,可以加强科学严谨性和文化相关性。应用“双重视角”方法(即结合原住民科学和西方科学),可以指导有意义的协变量选择和模型输出的解释,使其符合社区的需求。参与式方法有助于建立相互信任,确保咨询阈值反映当地饮食模式,并支持文化上适当的风险管理策略。

通过结合更丰富的数据集、先进的建模技术、时空扩展和社区共同开发,未来的生物监测工作可以提供更准确、更具普遍性和社会相关性的汞暴露评估。这样的综合、情境敏感的框架将更好地为公共卫生建议、环境政策和生态系统管理提供信息,以应对遗留污染、工业转型和气候驱动的生态变化。本研究强调了情境敏感的、基于决策的方法在模拟淡水鱼类汞积累方面的关键重要性。我们灵活的建模框架结合了明确的选择标准和严格的敏感性分析,为传统幂律回归提供了一个稳健的替代方案,特别是在数据异质性或有限的生态系统中。虽然我们的发现强调了某些湖泊-物种组合的显著变异性和模型固有的不确定性,但也为改进生态风险评估和公共卫生建议提供了宝贵的指导。通过明确处理并透明地传达模型局限性,未来的生物监测工作可以增强原住民社区之间的信任,改善管理决策,并制定更准确、更具情境针对性的健康指南。如果广泛采用这种基于标准、经过稳定性检验的工作流程,它可以在区域范围内加强鱼类消费建议和生态评估,提供从社区项目到国家机构的透明、情境特定的估计值。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号