《Scientific Reports》:Integrating physical modeling with artificial intelligence for predicting fish survival zones in polluted rivers to maintain a sustainable aquaculture industry
编辑推荐:
水质预测与管理对保障水资源可持续性至关重要。受污染的水体可危害人类与水生生物。随着海产需求增长,水产养殖业面临疾病管理、投喂优化、水质监测及养殖区提取等诸多挑战。近年来,水产养殖系统日益采用人工智能(Artificial Intelligence, AI)技术
水质预测与管理对保障水资源可持续性至关重要。受污染的水体可危害人类与水生生物。随着海产需求增长,水产养殖业面临疾病管理、投喂优化、水质监测及养殖区提取等诸多挑战。近年来,水产养殖系统日益采用人工智能(Artificial Intelligence, AI)技术以可持续方式应对这些问题。然而,传统AI技术如随机森林(Random Forest, RF)和多层感知器(Multi-Layer Perceptron, MLP)等常面临数据稀缺与物理一致性不足的问题。本研究通过求解两个耦合的污染-曝气方程(Pollution-Aeration Equations, PAEs),生成包含50,000个观测值的高保真物理衍生数据集,空间域扩展范围为0至4,以此弥合上述差距。该数据集用于训练一种新型混合RF-MLP算法,以在给定时刻识别污染河流中的鱼类生存区,同时确定维持整个河段环境安全条件所需的最小允许流速及上游溶解氧(Dissolved Oxygen, DO)水平。所提出的算法采用三阶段序列残差学习逻辑,结合RF稳定的特征划分能力与MLP改进的非线性误差修正能力。算法性能通过与九个独立AI算法进行全面指标基准测试得以验证。实验表明该算法具有卓越精度:相关系数(Correlation Coefficient, CC)达0.9999999973,散射指数(Scatter Index, SI)为0.00007326,Willmott一致性指数(Willmott's Index, WI)为0.9999999986,测试均方根误差(Test RMSE)为0.00012966,R2为0.9999999692。除精度外,该混合算法还展现出卓越的计算效率,训练时间仅22.58秒,相比双向长短期记忆网络(Bidirectional Long Short-Term Memory, BiLSTM)架构缩减24.45倍。这些结果为决策者提供了稳健工具,可基于最小流速与允许溶解氧传递水平识别最优河段用于鱼类养殖,弥合理论物理与工业水产养殖管理之间的鸿沟。
水产养殖业为人类提供了丰富的鱼类资源供给,但该产业面临诸多挑战,尤以水质监测为甚。监测与预测水质对识别污染与环境问题、制定知情决策及可持续管理水资源至关重要。随着工业生产扩张与创新,工业废水排入河流湖泊等水体,导致水质恶化,直接影响人类生活、鱼类生存及环境健康。对鱼类作为食物来源的需求增长推动了养殖环境的发展,然而每年因水污染导致大量鱼类死亡。鱼类死亡率是水产养殖业生产与福利的关键指标,因此水质监测对于确保养殖生产盈利与可持续至关重要。影响水质的因素包括养殖密度、饲料质量、投喂间隔、气候及水质参数等,其中水温(Water Temperature, WT)、游离氨(Free Ammonia, AMM)、总大肠菌群(Total Coliform, TC)、粪大肠菌群(Fecal Coliform, FC)、电导率(Conductivity, COND)、生化需氧量(Biochemical Oxygen Demand, BOD)、酸碱度(pH)及溶解氧等均为关键参数。气象条件与水质参数间复杂的相互依赖关系使水质变化呈现非线性特征,导致预测精度低下。准确的溶解氧浓度预测是水质监测与评估的重要方面,可为水体的化学、物理和生物特性提供关键信息,对保障水生物种健康生长具有重要意义。充分的溶解氧浓度(多数淡水鱼种通常高于5.0 mg/L)可支持正常生长发育,而低溶解氧浓度(通常低于3.0 mg/L)可能抑制生物活性,导致重大经济损失乃至鱼类死亡。
研究人员指出,尽管已有学者采用马尔可夫模型、灰色模型、支持向量回归(Support Vector Regression, SVR)、自回归积分滑动平均模型(Autoregressive Integrated Moving Average, ARIMA)及季节性自回归积分滑动平均模型(Seasonal Autoregressive Integrated Moving Average, SARIMA)等方法估算溶解氧浓度,但由于水质参数具有非线性、动态性、变异性和复杂性,这些技术往往难以捕捉复杂非线性的水文气候过程及随空间和时间动态变化的非平稳模式。因此,亟需人工智能等创新技术提高水质预测的准确性与可解释性,优化商业养殖实践、效率、生产力和盈利能力。
现有AI算法虽能高效解决复杂非线性问题,但多数需要大量数据集方能实现更高精度,而数据获取依赖成本高昂、耗时费力的实验室与统计分析,包括样品采集、运输及大量计算,效率低下。将物理科学与先进AI算法融合已成为解决训练数据短缺、提高模型泛化能力的有效途径。物理知识通常以两种方式呈现:一是基于物理的方程,建立输入与输出间的精确关系;二是用于模拟复杂系统的数值模型。基于此,研究人员提出了一种新型物理引导混合AI算法,将污染-曝气方程等基于物理的模型与AI算法相结合,用于监测污染河流中特定时刻适宜鱼类生存的区域,同时确定最小允许流速及最小允许气水氧传递量。该研究的主要贡献包括:建立物理科学与AI的协同关系,为水体研究提供可重复的框架;提出新型异构增强物理引导混合RF-MLP算法,采用三阶段序列残差学习逻辑;利用耦合污染-曝气方程生成50,000个空间观测值的高保真数据集以解决数据稀缺问题;成功消除树基模型的"阶梯状"伪影,恢复光滑指数曲率与连续梯度以实现物理保真度;实现数量级的计算性能优化,RMSE较深度学习同类降低一个数量级,同时训练时间显著减少。该研究发表在《Scientific Reports》期刊。
研究所采用的关键技术方法主要包括:基于两个耦合污染-曝气方程的物理模型求解生成合成数据集,采用显式有限差分法进行数值求解,并通过拉普拉斯变换获得简化条件下的解析解以验证数值结果;提出三阶段序列残差学习逻辑的异构增强混合RF-MLP架构,第一阶段由RF基学习器生成初始浓度预测,第二阶段由MLP层预测RF的残差误差,第三阶段将RF预测与MLP修正残差相加合成最终输出;采用80/20初始分割后二次分割的数据划分策略,最终形成约64%训练数据、16%验证数据和20%测试数据;选用线性回归、线性/RBF支持向量机、RF、MLP、梯度提升及GRU、LSTM、BiLSTM等循环神经网络作为基准对比模型;使用均方根误差、平均绝对误差、决定系数R
2、相关系数、Willmott一致性指数及散射指数等多指标进行综合性能评估。
研究结果部分首先呈现了统计学性能分析。混合RF-MLP模型在测试阶段表现最优,测试RMSE为0.00012966,R
2达0.9999999692。这表明该模型不仅能通过RF基学习器学习数据的主要结构模式,还能通过MLP修正器捕捉残差误差进行精细化预测。深度学习算法LSTM和GRU表现亦佳(R
2≈0.999),但未能超越混合RF-MLP。线性模型表现显著较差,证实了线性近似对于由非线性物理相互作用控制的环境空间快照的不充分性。在计算复杂度与权衡分析方面,混合RF-MLP算法以22.6秒的总训练时间占据了计算"甜点",而GRU和BiLSTM分别需要453.19秒和552.21秒,BiLSTM的训练时间约为独立RF模型的94.7倍。混合模型实现了精度与效率的最佳平衡,以极小的训练时间增加换取了数量级的误差降低。在验证阶段,混合RF-MLP算法保持了近似相同的误差特征,验证RMSE为0.00012442,测试RMSE为0.00012966,表明架构具有高度稳定性与泛化能力。
物理层面解读与AI预测结果部分显示,混合算法准确捕捉了羽流的近源峰值、扩散区及下游耗竭与下垂阶段等空间区域特征。通过修正RF残差,MLP成功消除了阶梯状伪影,生成了与显式有限差分法数值结果完全一致的平滑污染物浓度曲线与溶解氧浓度曲线。在不同流速下,上游溶解氧浓度因清洁富氧水的持续注入而保持高位,下游则因生化耗氧而逐渐降低。污染物浓度先增后减,形成特征性下游隆起。流速影响显著:低流速时水力停留时间长,氧消耗加剧;高流速增强纵向混合,延迟氧耗竭并将污染物累积区推向更下游。以饱和溶解氧30%作为水生生物生态阈值,在所选工况下溶解氧浓度全程高于该限值,表明清洁水释放策略足以维持环境安全条件。参数μ增加对溶解氧空间分布影响较弱,但污染物浓度响应明显;再曝气系数α增加则显著提升溶解氧水平,而对污染物浓度影响甚微。解析解与数值解间的一致性验证了显式有限差分格式的准确性与稳定性。
论文最后总结了研究结论。研究成功开发了新型物理引导混合RF-MLP(残差)算法,通过50,000个观测值的高保真物理衍生数据集进行训练,识别最优鱼类生存区(溶解氧水平高于饱和度的30%),支持联合国可持续发展目标中的清洁饮水与卫生设施(SDG 6)及良好健康与福祉(SDG 3)。该算法训练时间仅22.58秒,较BiLSTM缩减24.45倍,同时保持卓越预测精度。物理分析表明,上游注入清洁富氧水可有效稀释污染物并改善下游溶解氧;控制入口流速是修复的关键杠杆;再曝气率系数α对维持下游溶解氧水平具有主导控制作用,而污染物浓度对排放源强度参数μ高度敏感。研究建议环境管理者:基于阈值优化水资源配置,确定最小允许上游冲洗流速;实施动态上游流量控制以保护下游敏感养殖区;优先建设物理再曝气基础设施;严格管控点源排放;部署混合物理引导AI进行物联网遥测实时监测。未来研究将扩展至二维和三维场景,纳入pH、温度及营养盐等多元指标,探索Transformer架构或物理信息神经网络(Physics-Informed Neural Networks, PINNs),并开展实证验证与现场数据基准测试。