岛屿“河流-河口-近岸”连续体中的抗生素分布及驱动机制
《Ecotoxicology and Environmental Safety》:Antibiotic distribution and driving mechanisms in the island “river-estuary-nearshore” continuum
【字体:
大
中
小
】
时间:2026年03月27日
来源:Ecotoxicology and Environmental Safety 6.1
编辑推荐:
洪伟一 | 刘玉燕 | 丁芳芳 | 王玲 | 徐瑞 | 黄一逊 | 刘浩峰 | 李青山 | 李晔 | 刘敏
海南省热带岛陆面过程与环境变化重点实验室,海南观测与研究站成迈梅亭农林复合生态系统,海南省生态文明与陆海综合发展重点实验室,海南师范大学地理与环境科学学院,海口市,海南
洪伟一 | 刘玉燕 | 丁芳芳 | 王玲 | 徐瑞 | 黄一逊 | 刘浩峰 | 李青山 | 李晔 | 刘敏
海南省热带岛陆面过程与环境变化重点实验室,海南观测与研究站成迈梅亭农林复合生态系统,海南省生态文明与陆海综合发展重点实验室,海南师范大学地理与环境科学学院,海口市,海南571158,中国
**摘要**
当前关于陆源污染物进入海洋环境的研究往往侧重于单个环节,这限制了人们对污染物沿河流-河口-近岸(REN)连续体迁移的全面理解。本研究通过整合正矩阵分解(PMF)源分配方法和XGBoost-SHAP建模技术,对海南岛南都河流域的抗生素分布模式及其关键驱动机制进行了探究。结果表明,抗生素浓度随河流>河口>近岸的梯度而降低。在河流段,医疗用药(22.91%)和家庭用药(21.83%)是主要来源;而在河口段,畜禽养殖(21.47%)和水产养殖(20.07%)占主导地位。相比之下,科研、教育及文化活动(13.71%)是近岸段的主要贡献因素。XGBoost-SHAP模型对驱动因素的相对重要性进行了量化:排放源(ES)(61.87 ng/L)>悬浮颗粒物(SPM)(17.75 ng/L)>pH值(12.18 ng/L)。抗生素沿连续体的分布受到环境梯度的化学响应、水动力控制的传输过程以及颗粒介导的机制的共同影响。本研究为中小型河流-海洋连续体中抗生素的行为提供了机制性见解,并为陆海环境综合治理提供了科学支持。
**1. 引言**
抗生素来源于微生物和动物的次生代谢产物以及合成化合物,广泛应用于人类医学、水产养殖和畜牧业(Mithuna等人,2024年)。预计到2030年,全球抗生素消耗量将增加52.3%,达到约751亿个定义日剂量(DDD)(Klein等人,2024年)。由于抗生素具有高水溶性,高达90%的抗生素通过尿液排出(Mora-Gamboa等人,2022年),这使得它们通过生活污水、水产养殖废水和农业排放等点源以及扩散的非点源进入水环境(Bilal等人,2020年)。作为主要的环境储存库,水系统会积累抗生素及其残留物,对人类、动物和生态系统健康构成潜在风险(Bilal等人,2020年;Mithuna等人,2024年)。因此,了解其环境行为已成为迫切的研究课题。
“REN连续体”概念源于生态连续体理论,描述了一个从河流延伸至邻近沿海水域的动态过渡性水生系统(Robin等人,1980年)。作为陆海相互作用的关键界面,该连续体通过耦合的水文和生物地球化学过程控制着污染物在淡水和咸水之间的迁移和转化。与单一区域的研究相比(Hao等人,2024年),这一连续体视角能够系统地理解污染物在整个传输路径上的行为。从河流输送到河口的污染物受盐度梯度、潮汐动力以及悬浮颗粒物吸附的影响;而在近岸水域,它们的环境命运还受到海水稀释、光降解和微生物降解的作用。因此,研究REN连续体内的污染物动态对于揭示其在陆海相互作用下的多介质传输和转化机制至关重要。
近年来,海南岛及中国南部水环境中的抗生素污染问题越来越受到关注。不同环境区域中抗生素浓度存在显著的空间异质性。例如,流入三亚附近沿海水域的河流中的总抗生素浓度范围为17.15至227.16 ng/L(Zhang等人,2025a);北部湾南刘河口的浓度范围为22.40至118.00 ng/L(Zhang等人,2018年)。在海南文昌等近岸水产养殖区观察到大量抗生素积累(ND–629.49 ng/L)(Ren等人,2024年),而北部湾近岸水域的浓度相对较低(22.70–24.50 ng/L)(Zhang等人,2018年)。然而,这些研究主要集中在孤立的河流、河口或沿海系统中。对于具有较强系统完整性、相对明确的传输路径、短距离迁移以及对环境扰动高度敏感的REN连续体而言(Su等人,2021年),对其全链条行为的系统研究仍然不足。
机器学习(ML)技术的日益成熟为分析水体污染物的驱动机制提供了新方法(Zhao等人,2024年),这些方法广泛应用于抗生素去除研究(Bao等人,2023年;Jiang等人,2024年)。其中,极端梯度提升(XGBoost)因其强大的非线性拟合能力成为主流工具。研究人员通常使用贝叶斯超参数优化(BHPO)来优化其超参数,并通过增强数据来减少小样本中的过拟合现象(Zhu等人,2023年;Altalhan等人,2025年)。为了解决传统ML模型的“黑箱”问题,Shapley加性解释(SHAP)被用于使预测结果具有可解释性,量化每个因素对抗生素浓度的贡献。与线性回归相比,XGBoost-SHAP模型结合了非线性拟合和可解释性,适用于复杂的河流-河口-近岸污染场景。SHAP量化了因素之间的相互作用,为不同区域(河流、河口、近岸)的差异化管理提供了依据,提高了处理效率,避免了一刀切的方法。此外,PMF有效识别了抗生素污染源并量化了它们的贡献比例,以便进一步分析。
在此背景下,本研究调查了海南岛南都河流域REN连续体内的抗生素存在情况、传输过程及驱动机制。通过将PMF源分配与XGBoost-SHAP解释性ML框架相结合,建立了一个连接排放源、环境响应和抗生素命运的交互模型。量化了关键驱动因素的贡献及其协同效应,以揭示在陆海相互作用下的全链条污染物行为。本研究旨在为中小型河流系统的陆海环境综合治理提供机制性见解和科学支持。
**2. 材料与方法**
**2.1. 化学物质和参考标准**
目标抗生素的选择采用多层次筛选策略。优先考虑欧盟水框架指令(WFD)下属的三个地表水监测名单中的化合物(欧盟委员会,2015年;欧盟委员会,2018年;执行决定,2020年)。选择过程还参考了中国抗生素优先级排序以及七大河流流域中常见检测到的抗生素(Liu等人,2024年)。此外,还考虑了海南岛水产养殖区和饮用水源中频繁检测到的抗生素(Huang等人,2022年;Ren等人,2024年),以及已建立的分析方法(Ding等人,2024年)。基于此框架,最终选择了属于五类的20种抗生素。
目标化合物包括:
- 磺胺类药物(SA):磺胺迪嗪(SDZ)、磺胺噻唑(STZ)、磺胺胺啶(SMR)、磺胺吡啶(SPY)、磺胺甲噁唑(SMT)、磺胺甲氧唑(SMX)和磺胺喹啉(SQX);
- 氟喹诺酮类药物(FQs):诺氟沙星(NFX)、恩诺沙星(ENR)、氧氟沙星(OFL)和环丙沙星(CFX);
- 四环素类药物(TCs):四环素(TC)、氧四环素(OTC)、多西环素(DC)和氯四环素(CTC);
- 氯霉素类药物(CPs):_thiamphenicol(TAP)、氯霉素(CAP)和氟苯尼考(FFC);
- 大环内酯类药物(MLs):红霉素(ETM)和罗红霉素(RTM)。
所有分析标准品(HPLC级,纯度>99%)均购自上海ANPEL实验室技术有限公司(中国上海)。内标品——磺胺甲氧唑-d4(SMX-d4)、诺氟沙星-d5(NFX-d5)、四环素-d6(TC-d6)、氯霉素-d5(CAP-d5)和罗红霉素-d7(RTM-d7)由Dr. Ehrenstorfer GmbH(德国奥格斯堡)提供。所有使用的溶剂和试剂均为HPLC级或更高级别。
**2.2. 研究区域和样本采集**
采样于2023年8月雨季进行。为减少降雨引起的径流影响,采样前三天内没有显著降水。采样期间,南都河主干道的龙塘水文站平均流量为240.63 m3/s,超过了长期平均值183.12 m3/s,反映了典型的雨季水文条件(附表1)。采样选择在高潮与低潮之间的潮汐过渡期进行,此时潮汐干扰较弱。
为保持REN连续体的结构完整性,设置了36个采样点(图1),包括河流段(T01–T25)、河口段(F01–F08)和近岸段(S01–S15)。在河流段,采样点位于城市区域附近、医疗机构附近、工业排放口、分流节点以及主河道和支流交汇处;在河口段,采样点分布在三个分流河道上(附表2);在近岸段,采样点位于两个弧形剖面外侧,这些剖面与主河道扩散方向一致。剖面的半径分别为1 km和2.5 km,采样点在各弧线上均匀分布,符合国家和省级的常规监测布局。
**2.3. 抗生素分析测试**
**2.3.1. 样品准备与分析**
用于测定悬浮颗粒物(SPM)的水样通过0.45 μm醋酸纤维素膜进行真空过滤。保留SPM的膜干燥至恒重后称重,以计算SPM浓度。抗生素分析时,水样通过0.45 μm玻璃纤维膜(Φ50 mm,中国济南)过滤。用0.1 mol/L盐酸和氢氧化钠溶液将滤液的pH值调整至5.0,然后加入适量1 g/L的乙二胺四乙酸二钠(EDTA-2Na)溶液,静置1小时以减少其他离子的干扰。随后向处理后的水样中加入20 μL替代标准溶液并充分混合。
对1 L的样品进行固相萃取(SPE),使用Oasis HLB柱(亲水-疏水平衡,Waters Corporation,美国)。萃取前,依次用10 mL甲醇、10 mL超纯水和10 mL pH 5.0的超纯水对柱子进行清洗(流速为1 mL/min)。样品以约5 mL/min的流速加载到柱子上,清洗后用10 mL超纯水冲洗柱子。接着在真空条件下将柱子干燥30分钟。目标分析物用甲醇-乙腈(v/v,1:1)洗脱,收集洗脱液到圆底烧瓶中。使用旋转蒸发器(40 °C水浴)和低温冷却循环泵(DLSB-5L/20,中国巩义玉华仪器有限公司)将提取液浓缩至约0.5 mL。残留物用8 mL甲醇复溶并再次浓缩至0.5 mL。浓缩液转移到氮吹扫小瓶中,原烧瓶用甲醇冲洗,冲洗液与提取液合并。溶液在温和的氮气流下进一步浓缩至0.5 mL。
在仪器分析前,加入0.5 mL 0.2%甲酸溶液调整最终体积至1 mL。溶液通过一次性注射器的0.22 μm膜过滤。抗生素的定量分析采用超高效液相色谱串联四极杆质谱(UPLC–MS/MS;Xevo TQ-S,Waters,美国)进行。数据分析和统计处理使用SPSS 27.0、Origin 2024、ArcGIS 10.8和Canoco 5软件完成。
**2.3.2. 质量控制与质量保证**
每十个样品中包含一个程序空白样,以监测潜在污染。定量分析使用内标方法进行。在九个浓度水平(0.5, 1, 2, 5, 10, 50, 100, 250, 500 μg/L)建立校准曲线。所有目标抗生素的测定系数(R2)大于0.99,表明线性良好。检测限(LOD)和定量限(LOQ)分别在信噪比(S/N)为3和10时确定。LOD(检出限)的范围在0.01到0.49 ng/L之间,而20种抗生素的LOQ(定量限)范围在0.04到1.63 ng/L之间(见附录表5)。回收率的范围在41.7%到118.45%之间。仪器设置和优化条件详细记录在附录表6.2.4中。数据处理和分析包括以下步骤:
2.4.1 PMF模型
应用了EPA的正矩阵分解(PMF 5.0)模型来识别抗生素污染源并量化它们的贡献比例(Hu等人,2020年;Proshad等人,2023年)。该模型将浓度矩阵分解为因子贡献和因子谱,从而估计每个来源对不同采样点抗生素浓度的相对贡献。PMF框架能够处理包含未检测到的值(ND)的数据集,适用于连续系统中的复杂来源分配(模型原理和方程式见附录公式(1)–(3))。测量得到的抗生素浓度及其对应的不确定性(公式1)被输入到模型中。数据质量通过信噪比(S/N)来评估,其中S/N > 1表示强,0.5 ≤ S/N ≤ 1表示中等,S/N < 0.5表示差。每种情况都进行了100次运行的多次因子数量测试。最优因子数量是根据Q(robust)值的稳定性、因子谱的可解释性以及与已知污染源的一致性来确定的(见附录公式(2)。
(1) uij = (56MDL/c) / (RSD×xij^2 + MDL^2/c) × MDL
其中,RSD表示抗生素浓度的相对标准差;c表示抗生素浓度;MDL表示方法检测限。
为了确保模型的可靠性,进行了三步验证程序。首先,Q(true)与Q(robust)的比值接近1.0,满足推荐的诊断标准。其次,标准化残差主要分布在-3到3的范围内(见附录图1),残差图显示大致呈正态分布(见附录图2),表明模型性能良好。第三,使用不同运行次数的敏感性测试显示因子组成或来源贡献比例没有显著变化(见附录表7),证明了模型的稳定性。
2.4.2 LassoCV特征选择
特征选择使用了scikit-learn库中实现的LassoCV模块。这种方法用于消除冗余变量、减少维度,并优化后续XGBoost模型的预测变量集,从而减少小样本数据集中的过拟合(Tibshirani等人,2011年;Hu等人,2024年;方法细节见附录公式(4)。
在建模之前,使用Z分数标准化将PMF得出的来源贡献和环境变量(如pH值、盐度Sal)进行标准化,以消除尺度差异。应用高斯核密度估计进行数据增强,并使用Kolmogorov–Smirnov(KS)检验验证分布一致性。使用四分位数范围(IQR)方法识别并移除异常值(见附录代码,第一部分:数据扩展)。在10^-3到10^2的对数范围内生成了50个正则化参数(α)(见附录公式(4))。通过五折交叉验证确定能使验证数据集上的均方误差(MSE)最小的最优α值(见附录代码,第二部分:Lasso特征选择)。选定的特征随后被用作XGBoost模型的输入变量。
2.4.3 XGBoost模型
XGBoost算法被用来建模环境因素与抗生素浓度之间的非线性关系(Osman等人,2021年;Pan和Zheng,2022年)。XGBoost是一种集成学习方法,通过最小化正则化目标函数来构建加性回归树(见附录公式(5)–(10))。通过引入正则化项,该模型减少了过拟合,同时保持了强大的预测性能。环境变量包括ES、pH、Sal和SPM,构成了一个高维且可能共线的预测变量集。鉴于河流、河口和近岸区域之间的明显异质性,需要一个非线性建模框架来充分描述REN连续体内的复杂相互作用。与传统线性回归方法相比,XGBoost更适合捕捉异质环境数据集中的非线性响应和交互效应。通过LassoCV选出的特征变量与抗生素浓度数据结合,并根据时间分布使用分层随机抽样方法分为训练和测试数据集。正则化参数γ(gamma)和λ(lambda)的初始范围是根据先前的研究确定的(Osman等人,2021年)。正则化项表示为:
(2) Rf = γ × T^-1 / (2 λ × w^2)
式中,γ表示叶节点复杂度。γ和λ都是手动可调的超参数,用于控制惩罚强度。在本研究中,γ均匀分布在0到0.5之间,以完全捕捉数据的梯度特征。λ在对数均匀分布在1到10之间,这个范围有助于后续步骤中的更彻底的贝叶斯优化,并提高超参数优化效率。目标函数表示为:
(3) Objθ = ∑i=1^n (Li,y^it-1) + ftxi + Rft + Const
其中,Const是一个常数。在对目标函数进行二阶泰勒展开并去除高阶无穷小项后,得到最终函数(4):
(4) Objθ = -1/2 × ∑j=1^T (Gj^2Hj) + λ + λ^T
本研究采用的目标函数遵循XGBoost框架的基本原则,并基于三个方法学考虑。首先,逐步正向加性建模策略允许迭代优化各个决策树,使模型能够捕捉环境变量与抗生素浓度之间的非线性关系。其次,正则化目标函数反映了结构风险最小化的原则,这对于跨越REN连续体的小样本、多区域数据集尤为重要,因为模型泛化和稳定性至关重要。第三,引入二阶泰勒展开将梯度和Hessian信息纳入优化过程,提高了收敛效率,并增强了对复杂、高维异质数据结构的模型敏感性。
最后,使用Tree-structured Parzen Estimator(TPE)算法在BHPO框架内进行了超参数优化。优化过程最小化了验证数据集上的均方根误差(RMSE),以确定最佳参数组合。然后使用选定的超参数训练最终的XGBoost模型,确保预测准确性和模型可解释性之间的平衡,以便进行后续的SHAP分析。详细的超参数设置,包括树的数量、最大深度和学习率,见附录代码(第三部分:XGBoost的贝叶斯优化)。
2.4.4 SHAP模型
为了提高模型的可解释性,使用SHAP来量化每个预测变量对抗生素浓度的贡献(Wang等人,2022年;见附录公式(11)–(13))。SHAP提供了一个加性特征归因框架,将模型预测分解为单个特征的贡献。将训练好的XGBoost模型和标准化的特征数据集导入SHAP框架。使用TreeExplainer算法计算SHAP值。对于每个特征,SHAP值表示其对模型输出的边际贡献;绝对值反映了贡献的大小,而符号表示对抗生素浓度的影响方向。根据所有样本的平均绝对SHAP值对特征重要性进行排名。使用SHAP摘要图来可视化特征效应的分布,并检查环境因素与抗生素浓度之间的非线性响应模式(见附录公式(12)–(13);附录代码,第四部分:SHAP单特征分析)。
为了进一步研究交互效应,从测试数据集中随机选择了300个样本进行SHAP交互分析。计算成对的SHAP交互值,以量化环境变量之间的交互强度,从而完善对单因素效应的解释(见附录代码,第五部分:SHAP交互分析)。
3. 结果
3.1 连续体中抗生素的分布特性
3.1.1 抗生素组成
在Nandu河的REN连续体中检测到了总共19种抗生素(见附录图3a)。其中,SMX和FFC的检测频率超过90%(见附录表8),并占总抗生素负担的很大比例(见附录图3b)。连续体中的总抗生素浓度范围从ND到197.59 ng/L。这一模式与先前的研究一致,这些研究表明SA和CP在中国水生系统中的高使用率和环境持久性(Zhang等人,2015年)。相比之下,FQ和TC的检测频率相对较低。这种差异可能与它们的较高疏水性和更强的吸附亲和力有关,这促进了它们在沉积物和悬浮固体中的分配,从而降低了它们在表层水中的溶解相浓度(Gaballah等人,2024年)。
3.1.2 抗生素的分布
在Nandu河REN连续体中,抗生素浓度通常沿着河流 > 河口 > 近岸的梯度递减,尽管某些FQ和TC表现出局部增加。在河流段,SA、ML和CP占主导地位(图2),浓度顺序为SMX > ETM > FFC > SDZ > TAP > OFX。这一模式与中国其他河流系统报告的抗生素组成相似(Li等人,2023年)。尽管在河口段观察到FQ和TC的局部富集,但它们的浓度仍低于珠江河口报告的浓度(Li等人,2018年)。在近岸段,抗生素多样性显著下降,只有少数化合物(如SMX和OFL)被检测到(图2)。FQ和TC的浓度也远低于黄海南部报告的浓度(Du等人,2017年)。
与北部河流系统相比,Nandu河连续体中的大多数抗生素的累积水平相对较低(Lei等人,2019年)。这种模式可能与研究区域的高温和高湿度气候条件有关,这些条件可以增强光解、水解和微生物降解过程(Shahar等人,2024年;Yang等人,2025年)。尽管如此,包括SMX、ETM和FFC在内的特定抗生素在某些地点的浓度仍然相对较高。这可能反映了它们相对较高的使用频率以及Nandu河连续体有限的排放量,这增加了对局部污染物输入的敏感性,可能导致特定地点的浓度峰值(Du等人,2017年)。与具有高排放量、广泛工业输入、长传输路径和大量扩散源混合的大型大陆河流系统相比,Nandu河REN连续体表现出相对集中的点源影响、较短的传输距离以及向近岸区域的显著衰减。
3.2 抗生素排放源的分析
3.2.1 PMF模型参数的选择
将测量得到的浓度及其相关不确定性依次导入EPA PMF 5.0。模型运行使用3-6个因子和100次迭代作为初始设置。经过迭代调整后,Q(robust)值逐渐稳定。比较评估表明,五因子解决方案提供了最具可解释性和统计上可接受的结果。在这种配置下,大多数抗生素的R2值超过了0.68,除了少数化合物(如SMX和SMT)。此外,大多数抗生素的标准化残差分布在-3到3的范围内,表明模型性能令人满意。
3.2.2 PMF模型结果的分析
PMF分析确定了Nandu河REN连续体中的五个主要抗生素来源(见附录图4;附录表9)。该流域缺乏严重污染的工业。上游地区以热带雨林保护区为特征,人口稀少,医疗基础设施有限,而中下游地区(如海口和澄迈)人口密集,医疗设施集中。这些区域特征塑造了抗生素来源的空间差异。
(1) 河流段——以点源为主的空间异质模式
在河流段,抗生素分布表现出明显的空间异质性,主要与医疗和家庭来源相关。医疗来源占总贡献的22.91%(见附录图5),并在医疗机构集群附近的空间位置上与之对应。在采样点T04附近观察到Spy(89.63%)、RTM(66.19%)和TAP(43.28%)的比例升高(见图3),该点周围有几个医疗设施。这些抗生素通常用于临床治疗,表明医疗废水排放有很强的影响。夏季海南省的登革热和手足口病季节性爆发可能进一步增加抗生素的消费和废水排放(Huang等人,2020年;Dai等人,2025年)。
家庭用药来源贡献了21.83%,特别是在家庭污水排放区尤为明显。在T13(瑞西镇)和T16/T17(晋江镇)观察到SDZ浓度升高,这可能与家庭抗菌产品的广泛使用有关。实地调查显示这些地区的家庭污水管道覆盖有限,导致未经处理的废水直接排放到地表水中。先前的研究也报告了类似的结果(Shi等人,2022年;Ding等人,2024年)。
(2) 河口段——水产养殖和畜牧业的共同影响
在河口段,畜牧业(21.47%)和水产养殖活动(20.07%)被确定为主要的抗生素来源。代表性化合物包括OFL、ENR、ETM和CTC。高比例的CTC(81.93%)、ETM(62.50%)和OFL(46.54%)与位于河口地区的集约化畜牧和家禽养殖场有关,包括红星农场家禽养殖基地和城迈福建东岭养猪场等设施。海南夏季的高温和高湿度可能会增加牲畜疾病的发病率,从而可能增加抗生素的使用和残留物的排放(Trott等人,2021年)。在水产养殖区,SMX(84.19%)和FFC(83.33%)被识别为关键标志物(图3)。这些抗生素在虾和鱼类养殖中广泛使用,并可以通过饲料投施和废水排放进入水环境(Lou等人,2022年)。海南海洋和水产养殖的大量生产(Wang等人,2023年;Zhao等人,2025年)可能增加河口区域的抗生素输入。
在近岸区域——稀释条件下的残留物持久性
在近岸区域,抗生素的总体多样性降低,这可能是由于海水的稀释和降解过程的增强。尽管如此,某些化合物,包括FFC、TAP和CAP,仍以相对较高的比例被检测到。FFC与水产养殖源密切相关,在海洋养殖系统中广泛应用(Ren等人,2017年)。其较高的水溶性和持久性可能有助于其向近岸水域的迁移。此外,科学和教育来源占总输入量的13.71%。在这个来源类别中,TC(94.33%)和OTC(23.16%)的比例较高。四环素类药物在兽医和医疗应用中广泛使用,并且已知在常规废水处理系统中的去除效率有限(Skalska-Tuomi等人,2025年),这可能促进其在接收水中的持久性。
3.3 驱动抗生素分布的机制
3.3.1 基于RDA的环境因素对抗生素分布影响的初步评估
PMF模型识别的五个污染源的贡献值被定义为ES,并与环境变量(包括pH值、盐度、SPM、DO、压力(Press)、电导率(EC)和温度(Temp)结合。进行了冗余分析(RDA)以初步评估环境因素对抗生素分布的影响,并指导后续的特征选择。去趋势对应分析(DCA)确认数据集满足线性排序的假设,支持使用RDA(附录表10)。RDA结果(附录表11)表明SPM解释了34.9%的总方差(p<0.01),是REN连续体中最具影响力的因素。其他显著变量包括pH值、盐度、DO、压力、电导率和温度(图4)。
在河流区域,SPM是主要的解释变量,与SMX、FFC和CAP显示出强烈的相关性,表明颗粒相关的传输和吸附过程的重要性。相比之下,在河口和近岸区域,pH值、盐度、DO和电导率具有更大的影响,并与DC、SMR、OTC和NFX显著相关。这种模式反映了在淡水-海水混合条件下物理化学梯度在调节抗生素分布中的作用。
3.3.2 LassoCV特征选择
为了减少小样本量可能导致的过拟合并提高模型稳健性,应用了高斯核密度估计进行数据增强。验证了原始数据集和增强数据集之间的分布一致性(附录图6-7)。
在RDA结果的指导下,随后使用基于坐标下降的LassoCV算法进行了特征选择。所有变量都使用Z分数标准化来消除尺度差异并提高数值稳定性。生成了一组50个候选正则化参数(α)的几何序列。通过将数据集随机划分为五个子集进行五折交叉验证;在每次迭代中,四个子集用于训练,一个子集用于验证。计算五个折叠的平均均方误差(MSE),并选择对应于最小MSE的α作为最佳参数(附录图8a)。
最终保留了八个具有非零标准化系数的变量:EC(170.88)、盐度(147.69)、ES(63.18)、pH值(44.63)、SPM(34.41)、压力(13.72)、温度(7.38)和DO(6.92)(附录图8b)。这些变量随后被用作XGBoost–SHAP建模框架的输入预测因子。
3.3.3 影响抗生素的特征因素
(1)XGBoost模型的构建和优化
通过LassoCV选择的八个特征变量(EC、盐度、ES、pH值、SPM、压力、温度和DO)被用作输入预测因子。数据集使用时间序列分层随机抽样分为训练集(80%)和测试集(20%)。建立了综合的XGBoost–SHAP框架来量化环境因素对抗生素浓度的相对贡献。特征选择仅限于训练数据集以防止数据泄露。使用Tree-structured Parzen Estimator(TPE)算法在BHPO框架内优化超参数。搜索空间包括树的数量(100-2000)、最大深度(3-12)、学习率(10?3-0.3)、抽取比率(0.6-1.0)、特征抽取比率(0.6-1.0)、分裂增益阈值(0-0.5)和最小子节点权重(1-10)。进行了总共50次优化迭代(附录图9),并通过最小化验证RMSE来评估模型性能(附录图10)。最终模型使用最佳参数组合进行重新训练。
(2)特征因素对抗生素的影响
优化后的模型获得了0.88的R2值和3.02的RMSE值,表明其预测性能令人满意。根据平均绝对SHAP值(附录图11),特征因素的相对重要性排名如下:ES(61.87 ng/L)> SPM(17.75 ng/L)> pH值(12.18 ng/L)> DO(5.11 ng/L)> 压力(4.46 ng/L)> 电导率(3.30 ng/L)> 温度(2.97 ng/L)> 盐度(0.30 ng/L)。这一排名与RDA结果基本一致,证实了ES和颗粒相关过程的主导作用。SHAP summary图(附录图12)展示了环境变量与抗生素浓度之间的非线性关系。正的SHAP值主要与较高的ES、SPM、DO和EC水平相关,而较高的温度和pH值通常对应较低的抗生素浓度。
识别出两类主要的驱动因素。首先,诸如ES和SPM这样的正面驱动因素增强了抗生素浓度。SPM可能通过吸附-解吸过程和颗粒相关的迁移促进了抗生素的传输,从而增加了水柱中的有效载体容量。类似的污染物吸附-解吸行为也在高碱性的红泥过滤系统中被报道(Bai等人,2025年),表明浓度驱动的交换过程可能是控制颗粒介导的污染物再分布的更广泛机制。其次,诸如温度和DO升高的抑制性驱动因素与较低的抗生素水平相关,这可能是由于降解和转化过程的增强。
此外,盐度、压力和pH之间的协同作用可能会改变离子强度和抗生素的形态,从而影响疏水化合物(如FQs和TCs)的分布行为。
(3)特征SHAP值与实际测量的比较
为了评估模型的可靠性,将SHAP响应趋势与观测到的环境梯度进行了比较(图5)。ES、pH值、电导率、温度和盐度在测量值和SHAP响应之间表现出一致的方向性趋势,表明模型有效地捕获了关键的响应关系。尽管SPM、DO和压力的SHAP趋势并不严格遵循测量值,但它们的整体变化模式是一致的。DO的相对较低RMSE(附录表12)表明了强烈的非线性行为。压力和DO的变化也可能反映了水动力学波动和生物过程,这些因素引入了额外的系统复杂性。
(4)特征因素之间的主效应和交互效应
特征因素并非独立作用,也不会单独影响抗生素。使用SHAP交互值来量化变量之间的联合贡献(Wang等人,2022年)。对角线元素代表主效应(图6),表明ES和SPM表现出显著的独立贡献,交互值分别达到42.06和15.78,突显了它们在模型输出中的主导作用。在非对角线交互项中,观察到ES和压力、盐度、电导率、SPM和pH之间的相对较高交互值(例如,ES–SPM = 7.71)。这些结果表明了非线性的协同关系,其中联合效应超过了单个贡献。
pH值、盐度、SPM和DO的空间梯度进一步推动了沿连续体的抗生素动态变化。在河流区域,由于陆地腐殖质输入、溶解的CO?和有机物降解,pH值保持中性到弱酸性。在淡水条件下,SPM主要调节抗生素的吸附和传输。在河口区域,盐度分层促进了解吸和释放过程,导致抗生素浓度升高。DO具有双向调节作用:富含氧气的河水增强了抗生素的降解,而近岸区域的较低氧条件抑制了矿化过程,这与之前确定的强非线性特性一致。
总体而言,REN连续体内的抗生素分布受到来源强度、颗粒介导的传输、物理化学梯度和非线性交互效应的综合作用。
4. 讨论
4.1 驱动岛屿REN连续体内抗生素空间富集的机制
南渡河REN连续体内抗生素的环境命运表现出明显的空间差异,反映了来源强度、水动力传输和物理化学梯度的综合效应。在不同区域,主导的调节机制各不相同。
1. 河流区域:来源强度与颗粒介导的保留相结合
在河流区域,抗生素的富集主要受强烈的ES和颗粒相关过程的控制。集约化的医疗和的家庭废水排放大大增加了SA负荷,这与它们在中国的高使用频率一致(Zhang等人,2015年;Liu等人,2024年)。与其他抗生素类别相比,SA表现出相对更高的环境持久性。河流区域的条件为中性到弱酸性,这可能抑制SA的水解并有利于其稳定性(Li等人,2012年;Xu等人,2013年)。此外,较高的SPM通过疏水性和静电相互作用增强了吸附,延长了抗生素在水柱中的停留时间。在其他高表面积颗粒系统中也报道了类似的颗粒介导的吸附机制(Bai等人,2025年),表明表面相互作用过程在污染物保留中起关键作用。
相比之下,FQs在较高DO条件下更容易受到氧化降解,主要是通过好氧微生物途径(Feng等人,2025年)。这可能解释了在高DO河流段观察到的FQ浓度相对较低的原因。由于TCs的亲水特性(附录表13),它们更容易随水流传输,在上游区域保留较少,导致浓度相对较低。
2. 河口区域:混合诱导的再分配和源-汇转换
在河口区域,抗生素动态受到淡水-海水混合、氧化还原条件和持续人为输入的相互作用的影响。沿河流-河口梯度的盐度和pH值增加可能会改变抗生素的形态。例如,SA的脱质子化增强了它们的反应性和转化敏感性(Zhang等人,2024年),导致相对于河流区域SA浓度降低。河口水域较低的DO水平可能限制了某些化合物(如TCs)的氧化降解(Yang等人,2009年;Krakkó等人,2022年),可能促进了其积累。同时,河口区域减弱的动力水力导致沉积物滞留。这种效应类似于红泥剂量的增加(Bai等人,2022年),这显著增加了吸附位点的数量,从而导致抗生素的大量吸附。潮汐扰动随后可能诱导颗粒结合污染物的二次释放,在河口区域内产生动态的源-汇交换(Xu等人,2013年;Liu等人,2023年)。
在空间上,封闭的海湾(例如F03、F04、F07、F08)的浓度高于更开放的潮汐区域(例如F01、F06),表明有限的水交换有利于污染物保留,而较强的潮汐冲洗则促进了向海域的扩散(Wu等人,2022年)。
3. 近岸区域:稀释、絮凝和光降解控制
在近岸区域,抗生素浓度主要由稀释、盐度驱动的絮凝和光化学降解调节。盐度效应降低了疏水抗生素(如FQs)的溶解度。同时,增强的胶体絮凝使这些抗生素向沉积物转移,导致水相中它们的浓度显著降低(Fan等人,2025年)。具有高比表面积的颗粒在吸附目标污染物后可以形成絮凝结构,从而减少水中的悬浮固体(Bai等人,2022年)。这些观察结果支持了胶体絮凝在抗生素沉降中起主导作用的机制。水深的增加和静水压力可能抑制沉积物的再悬浮(Yan等人,2025年),有利于抗生素在底部沉积物中的积累。同时, offshore区域的浊度降低和光穿透增强促进了光降解速率。氟喹诺酮类药物(FQs)特别容易受到直接和间接的光解作用,包括·OH介导的光氧化(Ge等人,2010年;Sturini等人,2010年;Wen等人,2026年),这导致近岸区域的浓度相对上游部分较低。尽管由于陆地来源的残留物质和潮汐再悬浮作用,在沿海排放点附近可能发生局部富集(Soriano等人,2018年;Zhang等人,2025b年),但抗生素浓度总体上在离岸区域降低,形成了以稀释和降解为主要机制的浓度衰减梯度。总之,岛屿生境网络(REN)中抗生素的分布受到内在化学响应对环境梯度的作用、水动力传输和颗粒介导过程的共同影响,以及不同区域的排放差异的共同影响。
4.2. PMF耦合的XGBoost-SHAP建模方法:源头驱动–环境响应–抗生素命运
本研究将PMF受体模型与XGBoost–SHAP机器学习框架相结合,构建了生态系统的完整性(ES)、环境响应和REN连续体中抗生素命运之间的定量联系。在源头驱动维度下,PMF确定了五个主要的抗生素污染源:河流区域以医疗和家庭排放为主;河口区域以水产养殖和畜牧业排放为主;近岸区域则受到科学、教育及相关活动的影响显著。在环境响应维度下,确定了八个关键因素(ES、SPM、pH值、溶解氧(DO)、压力(Press)、电导率(EC)、温度(Temp)和盐度(Sal)作为影响抗生素分布模式的主要调节因素。在抗生素命运维度下,该耦合框架定量揭示了控制REN连续体中抗生素分布的空间梯度和非线性相互作用。除了SPM之外,训练和测试数据集的预测性能R2值均超过了0.86,表明模型的稳健性良好。这些结果表明,PMF耦合的XGBoost–SHAP方法是一种有效的工具,可用于解析源头与环境之间的相互作用,并识别岛屿型连续体中抗生素富集的主要驱动因素。
然而,采样仅在雨季进行,这可能限制了对环境控制因素季节性变化的表征。未来的研究应包括多季节监测,以更好地理解时间动态并提高模型的普适性。扩大空间覆盖范围和采样频率也有助于识别其他控制因素,如短期水动力波动或局部水体异质性,从而更精确地了解小到中型REN系统中的抗生素行为。
5. 结论
(1) 岛屿REN连续体中的抗生素浓度遵循以下模式:河流 > 河口 > 近岸。河流中主要含有磺胺类药物(SAs)、甲氧苄啶类(MLs)和氯喹诺酮类(CPs);河口中含有少量的四环素类(TCs)和氟喹诺酮类药物(FQs);近岸区域的抗生素多样性急剧下降。
(2) 基于LassoCV的XGBoost–SHAP框架确定的关键影响因素排序为:ES > SPM > pH > DO > Press > EC > Temp > Sal。EC和SPM显示出显著的独立贡献;ES与Press和Sal之间存在明显的协同作用;DO则表现出双向调节作用。
(3) 岛屿REN连续体中的抗生素分布受到内在化学响应对环境梯度的作用、水动力传输和颗粒介导过程的共同影响,以及不同区域的排放差异的共同控制。
作者贡献声明
刘浩峰:方法论、数据管理。
秦申礼:项目管理和正式分析、数据管理。
叶莉:方法论、调查、概念化。
刘敏:方法论、调查、概念化。
丁芳芳:项目管理和数据管理。
王玲:项目管理和数据管理。
徐睿:项目管理和正式分析、数据管理。
黄一昕:项目管理和正式分析、数据管理。
易洪伟:写作–原始草稿、方法论、调查、概念化。
刘玉艳:写作–原始草稿、方法论、调查、资金获取、概念化。
资金来源
本研究得到了国家自然科学基金(42361013;42261018;42571092)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号