基于强化学习的水 spinach 全生长周期自适应灌溉决策方法研究

《Food Frontiers》：Research on Adaptive Irrigation Decision-Making Method for the Entire Growth Cycle of Water Spinach Based on Reinforcement Learning

【字体：大中小】 时间：2026年04月02日 来源：Food Frontiers 6.9

编辑推荐：

　　**摘要** 为了解决水 spinach 生产中灌溉决策高度依赖经验的问题，以及难以应对降雨不确定性和作物生长阶段差异的问题，本研究提出了一种环境增强的近端策略优化（EN-PPO）精准灌溉控制方法。在传统的近端策略优化（PPO）强化学习框架基础上，引入了环境信息增强机制，将状态

　　**摘要**

为了解决水 spinach 生产中灌溉决策高度依赖经验的问题，以及难以应对降雨不确定性和作物生长阶段差异的问题，本研究提出了一种环境增强的近端策略优化（EN-PPO）精准灌溉控制方法。在传统的近端策略优化（PPO）强化学习框架基础上，引入了环境信息增强机制，将状态空间分解为策略状态和环境状态。EN-PPO 并非简单地直接应用 PPO，而是结合了两项关键改进，以应对农业灌溉中的强不确定性和安全约束。首先，它在近端策略更新中引入了动态剪切策略，使策略更新幅度能够根据训练阶段和环境波动进行适应性调整，从而减轻了由降雨随机性和样本稀缺性引起的训练振荡；其次，它设计了一种以生产安全和资源效率为导向的负激励机制，对违反土壤湿度安全范围、过度灌溉以及未能满足轮作和切换约束的行为进行惩罚，这引导智能体在探索阶段避免高风险决策，并在利用阶段保持稳定且节水的灌溉策略输出。实验结果表明，EN-PPO 算法在策略收敛稳定性、节水效果和降雨利用效率方面表现出更优的性能，实现了更合理的灌溉时间和水量调节，同时不影响作物的正常生长和产量。它为强化学习在农业精准灌溉中的工程应用提供了一种可行的方法。

**1 引言**

在水 spinach 生产系统中，灌溉管理与作物生长过程、水资源利用效率以及生产系统的稳定运行密切相关。作为一种典型的喜温喜湿的叶类蔬菜，水 spinach 生长周期短、生长速度快且可多次收获。其生长过程对根区土壤湿度的变化特别敏感。不适当的供水会对叶面积扩展、光合作用效率、地上生物量积累以及最终产量和商品质量产生显著影响（Guo 等人，2024；Peng 等人，2024）。在实际生产中，水 spinach 的灌溉决策需要满足其快速生长阶段的持续水分需求，同时考虑节水目标、田间排水安全以及在有限水资源条件下的自然降雨有效利用。特别是在炎热多雨的季节，灌溉与降雨的叠加会导致田间积水及排水不畅的问题，使得灌溉管理表现出明显的多目标性和动态性。然而，在气候变化背景下，降雨的时空分布不确定性持续增加，极端降雨和周期性干旱交替出现。传统的水 spinach 灌溉管理方法难以根据环境变化及时准确地设定水分阈值或依赖人工经验进行调整。这导致灌溉与降雨时机缺乏协调，排水压力增大，或在快速生长阶段出现短期供水短缺，从而降低了水资源利用效率并增加了生产风险。随着农业传感技术、自动化控制和信息化的不断发展，基于物理机制模型或数据驱动方法的智能灌溉方法被应用于叶类蔬菜的生产研究中。然而，物理模型方法在获取参数方面常常遇到困难，且在像水 spinach 这样生长周期短、管理频繁的作物系统中模型适应性不足。数据驱动方法在多次连续种植和较大天气波动条件下容易降低泛化能力（Brahmanand 和 Singh，2022；Singh 等人，2021）。上述水 spinach 生产的实际需求以及现有技术的局限性表明，有必要开发能够考虑复杂环境条件下水 spinach 的水分需求模式和水资源约束的智能灌溉决策方法，以支持水 spinach 生产向精准、高效和可持续的方向发展。

**2 文献综述**

针对上述问题，一些学者在基于强化学习的灌溉方法方面取得了一些成果。Ding 和 Du（2024）基于深度强化学习提出了一个灌溉控制系统（DRLIC），引入了灌溉奖励函数，并使用土壤湿度预测器来评估每个动作的性能，实现了针对当前土壤湿度和未来土壤湿度损失的最优控制策略构建。Alibabaei 等人（2022）训练了深度 Q 网络用于灌溉规划，该网络包含两个长短期记忆网络（LSTM），用于预测第二天的土壤剖面总含水量，并根据生长季节的环境条件估算产量并计算净收益，从而提高了灌溉效率。Chen 等人（2023）基于强化学习和作物模型 DSSAT 提出了一个精准灌溉模型，将棉花模型 CSM-CROPGRO 与强化学习算法结合，构建了能够最大化棉花产量并减少用水量的精准灌溉策略。Chen 等人（2021）基于短期天气预报提出了深度 Q 学习（DQN）灌溉决策策略，通过学习过去的灌溉经验并处理天气预报的不确定性，避免了因天气预报不准确带来的风险，提高了灌溉的节水效果。Saikai 等人（2023）提出了一个原则性框架和可操作流程，使用 APSIM-小麦作物模型模拟生产系统，并输入九个环境状态变量以返回概率灌溉方案，实现了基于不同时间段测量数据的灌溉量自适应调整。Hung 和 Yang（2021）开发了一个基于强化学习的智能体建模（RL-ABM）框架，该框架由改进自 Q 学习算法生成，智能体（农业用水者）可以根据与水系统的互动学习并调整用水需求。Campoverde 等人（2021）基于物联网（IoT）提出了一个灌溉系统方案，利用 IoT 传感器和智能平台管理农场灌溉操作，并采用基于马尔可夫决策过程的强化学习方法来学习植物所需的水量，减少了水和能源消耗。Agyeman 等人（2024）提出了一种半集中式多智能体强化学习（SC-MARL）方法用于农田灌溉调度，使用协调智能体和本地智能体确定特定管理区域的最佳日灌溉深度，实现了更高效的灌溉控制。Zhang 等人（2025）为使用传统地面漫灌的灌溉区域开发了基于强化学习的智能灌溉决策模型，该模型基于土壤-作物-大气连续体（SPAC）系统的理论框架，并结合了该灌溉区域的独特灌溉管理经验，通过智能体-环境交互学习实现了智能精准的灌溉决策。Kumar 等人（2025）将复杂的 DRL 算法与 IoT 传感器结合，实现了灌溉系统的动态监测和控制，可以根据作物的具体水分需求、土壤湿度和天气预报来调整灌溉计划，以适应不断变化的环境条件。基于强化学习的智能灌溉研究及其与作物模型、IoT 和天气预报的整合在多种作物和应用场景中取得了积极进展，但仍存在一些共同缺点。首先，许多研究在构建状态空间时倾向于同时输入土壤湿度、气象变量和作物生长信息，无法清晰区分“可直接通过灌溉行为控制的状态”和“受外部环境驱动且具有强不确定性的状态”，这导致学习过程中的环境噪声干扰，影响策略的收敛稳定性。其次，许多方法严重依赖作物模型或土壤湿度预测模型，这些模型的参数获取和模型泛化能力在不同地区和作物条件下存在显著不确定性，限制了其在实际生产中的广泛应用。此外，尽管一些研究纳入了天气预报信息或经济效益指标，但对预报不确定性、作物生长阶段差异以及灌溉和降雨综合效应的全面考虑仍不够充分。在复杂气候条件下的灌溉策略的鲁棒性和互操作性仍有待提高。在这种背景下，有必要探索能够更好地符合农业灌溉实际过程的智能灌溉决策方法，同时考虑环境不确定性和作物水分需求。叶类蔬菜生长季节短、生长迅速，对水分波动非常敏感。传统的强化学习策略通常侧重于长期产量或单一节水目标，无法反映实际生产需求。因此，本研究重点关注环境信息的结构化表示和策略更新机制，强调了环境状态和决策状态之间的区别。本研究的核心改进可以总结为以下三个方面：首先，提出了一个环境信息增强的状态建模框架，结构上区分了“直接受灌溉行为影响的决策相关状态”和“受外部因素驱动且无法控制的环境状态”。它将生长阶段差异、土壤湿度安全约束和未来降雨信息以任务机制一致的方式纳入决策过程，从而减少了外源噪声对价值估计和策略学习的干扰。其次，为了解决开放田地灌溉中由降雨不确定性引起的策略更新振荡问题，在近端策略优化（PPO）的更新步骤中引入了动态剪切机制，使策略更新强度在训练过程中能够调整，提高了收敛稳定性和跨场景泛化能力。第三，为了确保实际生产的安全性和可行性，构建了负激励机制，对可能导致缺水、积水风险、用水效率低下或违反轮作灌溉切换约束的行为进行惩罚，从而限制了探索空间，并引导策略形成更符合农业生产逻辑的灌溉路径。这些改进共同构成了增强型近端策略优化（EN-PPO）与传统 PPO 及常见 RL 基线之间的关键差异，也是本研究在“灌溉决策稳定性、节水效果和降雨利用效率”方面取得改进的主要原因。

**3 方法与材料**

**3.1 实验环境设置**

本研究在福建省福州市闽侯县 Zhuqi 乡的水 spinach 栽培基地进行。该实验基地位于福建省东部沿海地区，坐落在闽江中下游的南岸，属于福州市闽侯县 Zhuqi 乡，地理坐标约为 119.10°E, 26.02°N。该地区是闽江冲积平原的重要组成部分，地形相对平坦，拥有沟渠和农田网络，提供了优良的灌溉和排水条件。闽江及其支流在基地周围密集分布，为农田灌溉提供了稳定的地表水源。低洼地区和田间排水系统有助于雨季的防洪。Zhuqi 乡位于亚热带季风气候区，年平均气温高，热量充足，降雨和热量分布明显，适合种植喜温喜湿的叶类蔬菜如水 spinach。该地区的年平均降水量约为 1400–1700 毫米，降雨主要集中在 4 月至 9 月，这与水 spinach 的主要生长季节相吻合。夏季高温条件下蒸发量大，田间水分状况受降雨和灌溉调节的显著影响。该地区的农业生产主要以蔬菜种植为主，是福州市重要的蔬菜供应基地之一。该种植系统主要以露天蔬菜栽培为主，同时也考虑了简单的设施化生产。种植的作物类型包括水 spinach（水 spinach的中文名称，可根据实际情况调整）、小白菜和生菜等叶类蔬菜（Islam等人，2024年）。其自然条件和生产模式具有很强的区域代表性，适合作为水 spinach智能灌溉控制方法的测试和验证场所。图1显示了水 spinach生产基地的位置。

3.2 数据收集
本研究中的土壤主要为河流冲积形成的壤土-粘壤土，表土厚度约为20-25厘米，具有较高的田间持水能力，非常适合水 spinach所需的高湿度环境。根据水 spinach的生长特性，其生长周期分为苗期（0-7天）、快速营养生长期（8-20天）、旺盛生长期（21-35天）和收获期（36天后）。露天种植的水 spinach通常直接播种，行间距为20厘米，株间距为15-20厘米。在适宜条件下，单季作物的整个生长周期约为40-45天，因此可以实现多次收获。传统的灌溉方法主要包括沟灌和喷灌，并结合自然降雨。田间土壤含水量一般保持在田间持水能力的70%-90%之间。当连续晴天导致表层土壤含水量低于适宜的下限时，会进行补充灌溉。如果降雨后田间积水过多，会通过田间沟渠及时排水，以避免根部缺氧（Asres，2023年）。在实验过程中，每个处理组在施肥和病虫害控制方面保持一致。氮肥（以纯氮计）的施用量约为150-180公斤/公顷，分两次施用，基肥约占60%，追肥约占40%。磷肥作为基肥施用一次，量为60-70公斤P2O5/公顷。钾肥的施用量约为120-150公斤K2O/公顷，基肥和追肥各占50%。所有田间管理措施均按照朱岐乡高产稳定产水 spinach的常规露天栽培模式进行，因此实验结果能够准确反映灌溉管理对该地区水 spinach生长和水分利用的影响。本研究构建了一个强化学习环境，强调“受控状态-外部驱动”机制的一致性整合。根区土壤湿度用于表征可通过灌溉直接改变的受控水分状态，而降雨量和参考蒸散量等变量则作为外部驱动因素，用来描述天气扰动和水分消耗过程。作物系数用于反映生长阶段差异对水分需求的影响。单变量模型的典型局限性在于难以区分“可通过灌溉控制的变化”和“由天气随机性驱动的变化”，这在降雨量大或蒸散量高的情况下会导致判断失误。通过明确引入多维环境变量并对其进行结构化处理，智能体在决策时可以同时考虑水分供应、水分消耗和作物生长阶段差异。这使得训练过程中决策规则的学习更加稳定，减少了仅依赖单一变量时出现的“阈值问题、滞后现象和对极端天气的不敏感性问题”，使策略更适用于复杂气象条件下的露天生产场景。图2显示了水 spinach的实验区域以及灌溉设备和肥料灌溉设备。

3.3 改进的Actor-Critic算法
本研究采用了Actor-Critic算法，这是深度强化学习领域中的一个重要算法。它结合了上述策略优化和价值函数估计算法的优点，能够有效处理复杂的连续动作空间问题（Qiu等人，2021年）。该算法的框架包括两个主要部分：Actor（策略网络）和Critic（价值网络）。这两者相互促进策略优化和价值评估。Actor算法根据当前状态生成动作，输出是一个概率分布，其中表示策略网络的参数。Actor的目标是通过在给定状态下选择适当的动作来最大化长期奖励。Critic网络负责通过计算状态价值函数和动作价值函数来评估Actor选择的动作质量，从而衡量所采取的动作。Critic网络的反馈可以帮助Actor网络调整策略，使未来的动作选择更加有效。Critic的价值评估通过时间差误差进行。时间差误差是指当前实际奖励与预测奖励之间的差异。Critic通过最小化这一误差来优化其价值评估，为Actor提供更准确的反馈。Critic网络的损失函数如下所示：

Actor网络通过策略梯度方法优化其参数，其目标是通过调整策略网络的参数来最大化长期回报。其更新基于策略梯度，如下所示：

LSTM网络用于处理Actor-Critic算法的时间关系。LSTM网络具有时间步长；属于不同时间的状态向量被输入到LSTM算法的不同时间步长中。LSTM算法最后一个时间步长的输入向量为，前一个时间步长的输入向量为，依此类推。LSTM算法的输出被输入到全连接深度神经网络（DNN）中，DNN根据Critic网络的评估生成动作并估计该动作的Q值。图3显示了改进后的Actor-Critic算法的网络结构。

3.4 改进的PPO灌溉控制算法
PPO算法是最常用的深度强化学习算法之一，特别适用于处理涉及连续动作和状态空间的任务（Soliman等人，2025年）。PPO作为灌溉控制的基础强化学习框架，不仅是因为它在研究任务的结构特征和工程目标之间实现了全面的权衡。首先，灌溉决策动作涉及是否灌溉的二元决策以及灌溉量的连续控制，这要求算法在同一策略框架内稳定处理连续或混合动作输出。PPO是一种基于随机策略的近端策略梯度方法，可以通过概率分布建模和近端更新机制自然适应连续控制。露天种植水 spinach的灌溉受到降雨和蒸散等外部环境扰动的影响，导致奖励高度随机和滞后，从而在训练过程中产生高方差和策略波动。PPO的剪切目标限制了旧策略和新策略之间的差异，降低了由于过度策略更新而导致性能崩溃的风险。它在高噪声农业环境中提供了更好的收敛稳定性和可解释性。本研究使用Actor-Critic算法来优化PPO灌溉控制算法。Actor网络通过近似随机策略接收状态和动作之间的概率分布。Critic网络负责近似状态价值函数，以状态为输入并返回相应的状态价值。为了提高Actor网络利用采样数据的效率，PPO算法引入了两个独立的策略。策略在环境中运行T个时间步长；生成的轨迹（例如）被存储在经验池中。在训练过程中，Critic网络预测所有状态的价值，并将其与实际累积折扣奖励进行比较，使用均方误差作为损失函数来优化Critic网络。Actor网络的训练目标是通过最大化输出动作的优势来最大化累积折扣奖励。优势函数如下所示：

PPO算法通过策略梯度方法优化神经网络参数，其目标是最化预期回报。其更新基于策略梯度，如下所示：

PPO算法通过重要性采样来提高样本利用效率，将在线学习转化为离线学习并重用采样数据，从而加速算法的收敛。重要性采样的关键思想是使用两个不同的Actor网络：一个是待优化的网络，另一个是固定的网络用于收集数据并估计新策略。经过多批更新后，第一个网络的参数被同步，实现了同一批数据的重用。引入重要性采样后，预期奖励的梯度如下所示：

基于复合函数和对数函数的导数方程，本研究得到了新的PPO算法优化目标：

为了确保训练过程的稳定性，网络参数需要保持相似性。当输入状态相同时，网络输出动作的概率分布不应差异过大。PPO算法通过修剪目标函数来限制网络更新幅度，确保新策略生成接近旧策略（Zhu和Rosendo，2021年），如下所示：

为了确保训练过程的稳定性，网络参数需要保持相似性。当输入状态相同时，网络输出动作的概率分布不应差异过大。PPO算法通过修剪目标函数来限制网络更新幅度，确保新策略生成接近旧策略（Zhu和Rosendo，2021年），如下所示：

3.5 加强学习环境的构建
在本研究中，使用一维Richards方程描述了PPO算法训练过程中的环境动态。该方程用于模拟真实的农业水动力过程，使智能体能够在虚拟环境中交互式学习，以获得最优灌溉策略。对于具有多个灌溉区域的精准灌溉系统，行动空间包括对每个区域的灌溉决策，包括是否进行灌溉以及每个区域的具体灌溉量。行动空间如下方程所示：

(10)其中表示时间t时第i个灌溉区域的灌溉量集合，由连续行动变量组成；表示时间t的灌溉决策集合，由二进制变量组成，用于确定是否灌溉某个灌溉区域。在传统强化学习的控制场景中，状态空间中的所有状态变量都受到代理行动策略的影响。然而，在精准灌溉系统中，一些环境状态变量（如参考蒸散量和降雨量）与代理的行动策略无关，但它们对奖励的计算有重要影响（Bwambale等人，2022年）。因此，本研究根据精准灌溉系统的特点将状态空间分为两部分：策略状态和环境状态。通过这种状态空间的分解设计，可以更好地表示环境动态，并有效优化代理的决策过程。状态空间包括根区的土壤湿度条件、作物生长状态、气象变量以及通过一维Richards方程模拟的环境动态，使代理能够在虚拟环境中学习最优灌溉策略。策略状态空间如下方程所示：

(11)其中表示时间t时根区土壤湿度集合。这部分状态变量直接受到代理灌溉决策的影响。环境状态主要包括参考蒸散量、降雨量和植物系数。尽管这些变量不受代理行动策略的直接影响，但它们在奖励计算中起着重要作用。环境状态空间集合如下方程所示：

(12)其中表示时间t的植物系数，表示时间t的降雨量，表示时间t的参考蒸散量。这些变量反映了外部自然环境的变化，是代理需要考虑的重要环境特征。研究目标是通过调度和最小化每个灌溉区域的灌溉量来优化精准灌溉过程。同时，还减少了灌溉切换次数，确保根区土壤湿度保持在预定范围内。所有灌溉区域还必须遵守轮灌的约束，即不能同时灌溉多个区域。图5显示了改进后的PPO灌溉控制算法下的奖励曲线。因此，设计的奖励函数如下方程所示：

(13)
(14)
(15)

图5：改进后的PPO灌溉控制算法下的奖励曲线。在方程(12)–(14)中，和表示与灌溉期间土壤湿度条件相关的惩罚项，用于确保土壤湿度保持在预定范围内。和表示与期望灌溉量和灌溉系统约束相关的参数。和表示土壤湿度的上下限变量。表示第t天的根区土壤湿度含量。当代理的决策导致土壤湿度含量低于下限阈值时，系统会施加相应的惩罚。当土壤湿度含量高于上限阈值时，惩罚为。当土壤湿度含量保持在理想范围内时，惩罚为零。该奖励函数充分考虑了土壤湿度的上下限约束以及灌溉操作的一致性，确保了灌溉系统的有效运行。当代理选择进行灌溉操作时，惩罚为；当灌溉率非零时，代理将受到额外的惩罚。每次灌溉只能在一个灌溉区域进行。如果同时灌溉两个或多个区域，系统将施加惩罚。这个惩罚值应该设置得相对较高，因为这是系统中最重要的要求之一。本研究将强化学习环境与精准灌溉过程相结合，以调度和优化强化学习过程。策略优化采用了PPO算法。在代理的训练阶段，为了生成灌溉决策的随机策略，混合PPO的离散执行网络输出两个值，对应于两个离散动作（0和1）。离散动作是从softmax分布中采样的（Balderas等人，2025年）。混合PPO的连续执行网络通过输出每日灌溉率的均值和方差来生成每日灌溉率的随机策略。将PPO算法应用于精准灌溉调度优化的详细过程如下：代理首先通过初始化两个演员网络和评论家网络的参数与灌溉环境进行交互。在每个训练轮次中，代理根据当前环境状态（如土壤湿度和天气条件）通过演员网络生成灌溉动作，然后将这些动作应用于环境。环境根据代理的灌溉行为反馈相应的奖励（与作物生长状态、节水效果等相关）和下一个状态。代理将每次交互的经验存储在经验池中，并训练评论家网络，后者通过计算优势函数来更新其参数。演员网络使用PPO目标函数更新新策略的参数，以确保策略更新的稳定性。更新完成后，新策略的参数替换旧策略的参数，从而更新旧策略。整个过程循环进行。通过不断与环境交互和优化网络，代理逐渐学习到最优的灌溉调度策略，实现水资源的有效管理和作物生长的优化，直到训练收敛或达到预设的迭代次数。图6显示了基于强化学习框架的EN-PPO算法的灌溉环境构建过程。

图6：基于强化学习框架的EN-PPO算法的灌溉环境构建过程。EN-PPO（Enhanced Proximal Policy Optimization）改进了近端策略优化。本研究构建了一个强化学习环境，强调“受控状态-外生驱动”范式的机械一致性整合：根区土壤湿度代表可以通过灌溉动作直接改变的受控水分状态组件，而降雨量和参考蒸散量被视为捕捉天气干扰和水分消耗过程的外生驱动因素，作物系数则用于反映生长阶段依赖的水分需求。与单变量公式（例如，仅依赖土壤湿度或固定阈值）相比，这种多维和结构化的表示缓解了一个常见限制——即无法区分“可通过灌溉控制的变化”和“由天气随机性驱动的变化”——这通常会导致在降雨量大或蒸散量高时的误判，从而导致环境噪声干扰、训练稳定性降低和跨场景泛化能力减弱。为了进一步解决训练和实际部署之间的分布差异，环境构建阶段通过应用区间随机化和噪声注入到关键参数（如土壤渗透性/保水特性、参考蒸散量、作物系数和降雨输入）中，并通过随机化降雨量/到达时间的扰动或多场景采样来明确考虑未来降雨预测的误差，从而使代理暴露在更广泛的环境条件下，提高鲁棒性。在部署过程中，采用了OOD检测和安全回退机制：当观测值超出训练分布范围（例如，极端降雨、异常蒸散或土壤参数偏差）时，EN-PPO避免直接执行学到的动作，而是切换到保守的基于规则的/阈值策略或手动确认模式，以避免高风险决策。最后，为了确保安全，我们首先在虚拟环境中训练和验证策略，然后以“决策推荐/半自动控制”的方式进行小规模试验；所有动作在执行前都经过安全层过滤（包括动作掩蔽、动作投影和对土壤湿度安全界限的严格检查），整个工作流程——模拟训练、离线评估、灰度部署和安全过滤/回退——减少了分布差异和在线探索带来的安全风险，同时提高了EN-PPO在真实生产环境中的部署能力。

4 实验结果

为了验证EN-PPO算法的有效性，本研究将其与PPO [23l]、DON（Deep Q Network）[2022] 和DDPG（Deep Deterministic Policy Gradient）[25l] 算法进行了比较。实验结果如下。

4.1 模型性能

损失函数值是神经网络训练期间的目标函数值，神经网络近似离散状态-动作价值函数（Korkmaz 2021）。如图7所示，在水 spinach 灌溉的强化学习训练过程中，四种算法的损失函数和平均奖励曲线（Zhang等人，2021）显示出一致但显著不同的演化模式。在训练初期，由于可用样本数量有限，环境状态与灌溉动作之间的映射关系尚未完全掌握，因此神经网络对状态-动作价值函数的拟合能力较弱。每种算法的损失函数值都很高，并在最初的100次迭代中迅速下降。在500-1500次迭代后，网络参数更新的幅度逐渐减小，损失函数进入稳定波动范围，表明它能够更好地近似蔬菜灌溉系统不同状态下的动作价值函数。与损失函数相比，平均奖励的改善较为缓慢，需要1000-3000次迭代才能达到稳定水平。因为损失函数反映了当前策略下价值函数拟合的收敛情况，而平均奖励直接评估了代理在实际决策过程中的整体效果，所以平均奖励的改善通常比损失函数慢。在训练初期，代理主要采用探索策略，频繁且随机地选择灌溉动作以获得足够多样的奖励样本，这导致平均奖励较低。随着训练的进行，利用策略逐渐占主导地位，代理选择更高产的灌溉时间和量组合，从而导致平均奖励的稳定增加和稳定。比较不同算法，EN-PPO算法在损失函数收敛速度、稳定性和平均奖励水平方面表现最佳。其损失函数下降更快，在后期波动较小，表明策略和价值网络之间的协作更新更加稳定。此外，EN-PPO的平均奖励更早增加，并且稳定性最高。这表明EN-PPO算法在PPO近端策略更新机制的基础上引入了环境信息增强和更有效的优势估计。它使算法能够在复杂的天气条件和连续动作空间下充分利用有限的经验样本，并平衡探索和利用过程，学习到合理且高效的水 spinach 灌溉决策策略，最终表现出更好的训练性能和策略收敛效果。

图7：每种算法的损失函数和平均奖励训练曲线：(a) PPO，近端策略优化；(b) DQN，Deep Q Network；(c) DDPG，Deep Deterministic Policy Gradient；(d) EN-PPO，Enhanced Proximal Policy Optimization。如图8所示，在蔬菜灌溉的强化学习训练过程中，每种算法的奖励因子散布分布显示出从“高度离散”到“高价值集中”的典型演化特征。然而，在收敛速度、稳定性和分散程度上存在明显差异。在训练初期（大约0-800次迭代），PPO和DQN的奖励因子最为分散（Eschmann 2021）。这些值主要分布在3-12的范围内。低价值点（<5）出现频率较高，这反映出在以探索策略为主导的阶段，代理容易做出不合理决策，如灌溉延迟、灌溉后下雨或灌溉不足，从而导致奖励出现较大波动。DQN算法在500-1000次迭代范围内形成了明显的“V”形分布结构。最低奖励因子降低到大约3-4，表明其在探索-利用转换期间对环境变化的适应能力相对较弱。DDPG的奖励因子高于PPO和DQN。在训练的早期阶段，大多数值集中在8-12的范围内，但仍存在一定数量的低至中等价值的散点。尽管它可以在连续动作空间中快速提高回报，但对策略噪声仍然比较敏感。相比之下，EN-PPO算法在训练早期阶段表现出明显优势。其奖励因子在大约300-500次迭代后迅速集中在高价值范围内，绝大多数散点稳定分布在11-12附近。低于8的奖励点极为罕见。在整个3500次迭代过程中，分布最为紧凑，波动最小。这表明EN-PPO算法能够更早地从探索策略顺利过渡到高效利用策略，输出高质量的灌溉决策，以确保蔬菜生长的安全需求。其性能优势主要源于引入了环境信息增强机制，并在近端策略更新机制的基础上进行了更合理的优势估计。这使得代理能够更准确地权衡因灌溉不足导致的生产减少风险与因过度灌溉造成的水资源浪费。在训练的后期阶段，它逐渐减少了无效探索，加强了高产决策，在奖励因子水平、稳定性和收敛一致性方面优于其他三种算法。

图8：每种算法训练过程中奖励因子（z）的散布分布：(a) PPO，近端策略优化；(b) DQN，深度Q网络；(c) DDPG，深度确定性策略梯度；(d) EN-PPO，增强型近端策略优化。

4.2 节水效果

如图9所示，四种算法在减少灌溉用水量、减少排水量、节水率和提高降雨利用率方面表现出不同程度的优化效果，但性能和稳定性存在显著差异。在减少灌溉用水量方面，PPO算法平均减少了约5-6毫米，DQN增加到约10-11毫米，DDPG进一步提高到17-18毫米。EN-PPO表现最佳，平均减少了约28-30毫米，在某些情况下甚至达到了约45-48毫米。在减少排水量方面，PPO和DQN算法分别减少了约6毫米和9-10毫米，而DDPG减少了约14-15毫米，而EN-PPO则减少了约26-27毫米，这表明在高降雨条件下具有更大的排水减少潜力。结果显示，PPO和DQN的平均节水率为3%-4%；DDPG增加到6%-7%，而EN-PPO的平均节水率可达到11%-12%，在最高情况下超过20%。在提高降雨利用率方面，PPO约为7%，DQN增加到约11%，DDPG约为15%-16%。EN-PPO算法提高了29%-30%，部分样本点甚至超过了40%。EN-PPO在所有四个指标上均表现出更高的平均水平且分布更为集中，表明它减少了水 spinach灌溉决策中的无效灌溉和多余排水，并利用未来降雨信息实现了“少灌溉、少排水、高利用率”的协同优化效果。其优势源于结合了环境信息增强和近端策略优化，使代理能够更准确地权衡在不同天气条件和生长阶段下延迟灌溉与立即灌溉之间的利弊。这使得它在确保蔬菜正常生长需求的同时，比PPO、DQN和DDPG实现了更好的整体节水效果和降雨利用率。

图9：每种算法关于减少灌溉用水量、减少排水量、节水率和提高降雨利用率的决策过程：(a) PPO，近端策略优化；(b) DQN，深度Q网络；(c) DDPG，深度确定性策略梯度；(d) EN-PPO，增强型近端策略优化。

如图10所示，不同算法的状态-动作价值函数分布在三个生长阶段（幼苗期、生长期和成熟期）存在显著差异。表示环境状态，包括土壤湿度、气象条件和生长阶段。表示不同的灌溉决策（例如，灌溉、延迟灌溉或减少灌溉）及其相应的奖励因子。总体而言，在幼苗期，每种算法的高Q值区域主要集中在较浅的水深（约0-30毫米）和较早的生长阶段（0-80天），表明模型倾向于在根系完全发育之前保持较浅的水层以避免过度灌溉。PPO和DQN的Q值分布相对分散，等高线不连续，高值区间大多在5到9之间，而DDPG可以形成连续的中高价值带（约7-11毫米）。相比之下，EN-PPO算法在幼苗期构建了更清晰、更连续的高价值区域（最高Q值接近13-14）。高价值区域的覆盖范围更为合理，因此它可以更准确地学习“浅层灌溉—高奖励”的基本灌溉规则。随着生长阶段蔬菜需水量的增加，所有算法的高Q值区域通常向中等水深（约20-60毫米）移动。然而，PPO和DQN仍表现出显著的局部极端和不规则分布，某些区域的Q值低于5，反映了策略对状态变化的适应能力不足。DDPG在这一阶段构建了较大的中高Q值区域（约8-12毫米），但仍存在较大的噪声波动。EN-PPO算法在生长期表现最佳，其高Q值区域具有更高的值（通常为10-14），显示出随着水深和生长进展的平滑梯度变化，因此可以稳定评估不同状态下的长期回报。在成熟期，每种算法的整体Q值水平下降，高价值区域逐渐集中在较浅至中等水深（约10-40毫米），反映了策略倾向于减少灌溉和避免无效用水的倾向。PPO和DQN显示出相对均匀的Q值分布，通常较低（大多在4到7之间），而DDPG仍存在一定分散。EN-PPO算法保持了最稳定的价值函数结构，因为其高价值区域连续且分布合理，最高Q值仍达到约12-13。总体而言，EN-PPO在三个生长阶段均表现出更高的价值函数水平、更平滑的空间分布和更清晰的状态-动作响应关系。这表明它能够利用奖励因子中包含的降雨利用和节水信息，平衡了不同生长阶段灌溉不足的风险和水资源浪费的成本。这一优势源于其在近端策略优化框架内引入的环境信息增强机制，使策略网络和价值网络能够更全面地反映蔬菜灌溉决策中的状态。

图10：每种算法在蔬菜不同生长阶段的值函数（q）分布：(a) PPO，近端策略优化；(b) DQN，深度Q网络；(c) DDPG，深度确定性策略梯度；(d) EN-PPO，增强型近端策略优化。

4.3 降雨预测和动态灌溉

如图11所示，在水 spinach灌溉场景下，不同强化学习算法对未来7周内灌溉次数的预测在不同生长周期（幼苗期、生长期和成熟期）存在显著差异。表示由土壤湿度、天气预报和生长阶段组成的环境状态；表示不同的灌溉决策（例如，少量灌溉；中等或多次灌溉），及其相应的奖励因子。在幼苗期，所有算法主要使用低频灌溉（0-1次和2-3次），但PPO和DQN仍占4-5次甚至5-6次灌溉的约10%-20%，表明对早期水分需求的评估较为保守。DDPG显示中等和高频灌溉的比例有所下降，而EN-PPO在幼苗期占0-1次和2-3次灌溉的80%-90%，这是高频灌溉比例最低的。这反映了在幼苗期对“浅层和少次灌溉”的合理控制。随着水 spinach进入生长期，需水量增加，所有算法的中频灌溉（2-3次）比例普遍上升。PPO和DQN在不同周之间表现出显著波动，因此在某些周高频灌溉仍占30%以上。DDPG在某些周建立了相对清晰的中频主导结构，但其稳定性不足。相比之下，EN-PPO在生长期显示出最清晰和最稳定的灌溉频率分布，2-3次和4-5次灌溉的组合比例在大多数周超过70%，表明该模型可以根据当前状态和未来降雨信息平衡水分需求。接近成熟期时，所有算法都减少了灌溉次数，但PPO和DQN在许多周仍预测4-5次甚至5-6次灌溉。EN-PPO主要集中在低频和中等频率灌溉上，0-1次和2-3次灌溉的比例在大多数组合中超过75%-85%，从而避免了后期过度灌溉造成的水资源浪费。对三个生长周期的综合分析表明，EN-PPO在其7周尺度上的灌溉频率预测中表现出最清晰的层次结构和最平滑的周际变化。在策略学习过程中，它可以通过奖励因子自动吸收未来降雨的时间分布和作物需水特征。在探索阶段，它减少了无效的高频灌溉。在利用阶段，它稳定输出接近专家经验的灌溉决策。因此，在灌溉频率预测的合理性、稳定性和资源利用效率方面，它显著优于PPO、DQN和DDPG。

图11：使用不同算法对7周内灌溉频率的预测：(a) PPO，近端策略优化；(b) DQN，深度Q网络；(c) DDPG，深度确定性策略梯度；(d) EN-PPO，增强型近端策略优化。如图12所示，在面对7周降雨情景和延迟灌溉时，不同算法对田间水分平衡要素（灌溉量、排水量、田间水深和降雨量）的预测结果不同。状态由田间水深、降雨预报和生长阶段组成。动作表示是否灌溉或延迟灌溉。奖励因子表示为。总体而言，在第1-4周，当未来降雨量较少或零星时，所有算法都保持了较低的实际灌溉量（大多为0-5毫米），田间水深随时间缓慢下降。然而，在第5-6周，当出现大量降雨（每周降雨量达到60-90毫米）时，算法在是否提前灌溉的决策上表现出显著差异。PPO和DQN在第4-5周仍提供了相对较大的计划灌溉量（计划峰值灌溉量约为15-25毫米），导致随后的大量排水。第5周实际排水量超过20毫米；田间水深在短时间内上升到30-35毫米。尽管DDPG在一定程度上减少了灌溉量，但在降雨集中的周仍有过量的灌溉，导致排水量和水深出现显著波动。相比之下，当第4周田间水深接近灌溉的下限（大约8-10毫米）时，EN-PPO根据对未来1-2周内降雨量大的预测，主动选择推迟灌溉，使得实际灌溉量接近0毫米。在第5-6周，它减少了降雨后的排水量，因此实际排水量低于其他算法。田间水深的峰值被控制在大约25-30毫米，下降过程更为平缓。总之，EN-PPO能够更准确地权衡“立即灌溉以确保作物水分需求”与“推迟灌溉以利用未来降雨”之间的利弊，这一决策受到奖励因素的指导。面对未来7周降雨的不确定性时，它减少了不必要的灌溉和排水损失，从而实现了更好的水分平衡调节效果。图12（在图查看器中打开）PowerPoint

不同算法在面对未来7周降雨时推迟灌溉的情况下对水分平衡因素的预测：(a) PPO（近端策略优化）；(b) DQN（深度Q网络）；(c) DDPG（深度确定性策略梯度）；(d) EN-PPO（增强型近端策略优化）。

4.4 生长与发展

如图13所示，在7周内，不同强化学习算法的灌溉控制策略下，叶面积指数、植株高度、总干物质重量和分蘖数量显示出一致的生长演变模式。然而，不同算法之间的生长水平和生长速率存在显著差异。状态代表了由生长阶段和田间水分条件组成的环境状态；动作代表了不同的灌溉控制决策（: 减少或推迟灌溉，: 常规灌溉）；奖励因子为。从叶面积指数的变化来看，所有算法在第1-4周都显示出快速增长，其中EN-PPO的增长最为显著，在第4周达到约6.8的最高值，高于DDPG（约5.2）、DQN（约4.8）和PPO（约3.2）。所有算法在后期都略有下降，但EN-PPO在第6周仍保持最高水平（约4.8），表明它在中后期能够更好地维持叶片生长优势。就总干物质积累而言，所有算法都呈现持续上升趋势，但EN-PPO的积累速度最快，在第6周的总干物质重量约为1.55，显著高于DDPG（约1.25）、DQN（约1.05）和PPO（约0.90），这表明其灌溉决策更有利于光合产物的积累。关于分蘖数量，水 spinach的分蘖数量在前3-4周迅速增加，并在第4周达到峰值。EN-PPO的分蘖数量约为18-19个，高于DDPG（约16个）、DQN（约15个）和PPO（约14个）。虽然数量略有下降，但始终保持在最高水平。植株高度在早期快速增长，后期逐渐放缓。EN-PPO在第5周达到最大植株高度约100厘米，并在第6周仍保持在约98厘米，高于其他方法（DDPG约84厘米、DQN约80厘米、PPO约73厘米）。尽管在不同灌溉策略下水 spinach的生长指标总体趋势一致，但EN-PPO在所有关键生长指标上显示出更高的数值水平和更好的生长可持续性。因此，它可以通过奖励因子平衡水分供应和作物生长需求，确保水 spinach的生长潜力，同时避免过度灌溉。结果，在叶面积扩展、干物质积累和种群结构优化方面表现优异。图13（在图查看器中打开）PowerPoint

不同算法在7周内对水 spinach进行灌溉控制时，叶面积指数、植株高度、总干物质重量和分蘖数量的变化：(a) PPO（近端策略优化）；(b) DQN（深度Q网络）；(c) DDPG（深度确定性策略梯度）；(d) EN-PPO（增强型近端策略优化）。如表1所示，不同强化学习灌溉算法下的产量及其组成部分的总体差异并不显著，但在具体水平上观察到了优劣的梯度，这表明智能灌溉需要在不降低产量的情况下进行优化。在PPO、DDPG和DQN算法下，水 spinach的植株高度分别为72.8厘米、75.6厘米和74.9厘米；单位面积的植株数量集中在116.9-121.2株/m2范围内，可收获的茎叶比例为81.1%-85.0%；单株鲜重约为215.3-228.4克；相应的鲜产量为25,210.6-25,850.7克，这些指标大致相当。这表明基于强化学习的灌溉决策不会对水 spinach的正常生长和最终产量产生不利影响。相比之下，EN-PPO在所有产量组成部分上表现最佳。其植株高度显著增加到81.3厘米；单位面积的植株数量达到138.7株/m2，高于其他算法。可收获的茎叶比例增加到89.2%。单株鲜重增加到241.6克，最终鲜产量达到27,980.9克，分别比PPO、DDPG和DQN高出9.8%、10.9%和8.2%。这表明EN-PPO通过更合理的灌溉时间和水分分配，促进了水 spinach种群结构的优化和个体植物生物量的同时增加，从而在不降低总体产量的情况下进一步提高了产量，证明了其优越性和实际可行性。表1. 不同算法下水 spinach的产量及其组成部分。算法

植株高度（厘米）
单位面积植株数量（株/m2）
可收获茎叶比例（%）
单株鲜重（克）
鲜产量（千克/公顷）

PPO
72.8
118.4
81.1
215.3
25,480.4

DDPG
75.6
116.9
82.4
220.1
25,210.6

DQN
74.9
121.2
85.0
228.4
25,850.7

EN-PPO
81.3
138.7
89.2
241.6
27,980.9

缩写：DDPG（深度确定性策略梯度）；EN-PPO（增强型近端策略优化）；PPO（近端策略优化）。

4.5 结果分析

本研究在多个生长周期和不同的降雨分布条件下验证了灌溉策略的效果。结果显示，EN-PPO不仅在平均表现上优于对比算法，而且在“由于降雨量低/蒸散量高导致的渐进性水分亏缺阶段”以及“由于集中降雨导致的排水和积水风险阶段”中，都保持了更稳定的决策倾向。在降雨量低的时期，该策略通过较少但更及时的补充灌溉维持了优越的关键生长指标；在降雨量大的时期，该策略更倾向于预测未来的降雨情况并减少不必要的灌溉，从而降低了降雨后排水波动和地下水位迅速上升的风险，显示出对外部气象干扰的更强鲁棒性。尽管本文的田间验证主要集中在水 spinach上，但研究地点的露天生产系统还包括白菜和生菜等典型的叶类蔬菜，具有一定程度的代表性。对于不同的蔬菜品种，EN-PPO的转移能力主要体现在“一致的决策机制和可替换的作物特性参数”上：即保持“水分状态—气象驱动因素—生长阶段差异”的信息结构，并通过作物生长阶段划分、水分需求节奏描述和安全水分范围等参数更新品种差异。在实际应用中，建议使用“离线重新训练/微调与历史田间数据+小规模灰箱测试”的过程，以便快速适应新地区和作物的土壤和水分响应特性，而不改变整体控制逻辑。通过补充上述讨论，本文不仅证明了“结果优于基线”，还进一步解释了为什么这种优势在不同环境条件下仍然有效，以及如何将其应用于其他叶类蔬菜品种。此外，本研究选择的对比算法遵循三个原则：“范式覆盖、动作空间匹配和灌溉控制的可重复性”，确保了对比结果的说服力。首先，工程中的灌溉决策通常涉及离散决策（“是否灌溉/是否推迟”）和连续调整（“灌溉水量”）。因此，本研究选择了代表不同决策范式的强化学习基线，涵盖了离散和连续控制需求。DQN作为一种典型的价值函数方法，适用于离散决策问题，反映了“开/关”或“定时”灌溉控制的主流方法。DDPG作为确定性策略连续控制的代表，可以直接输出连续的灌溉水量，反映了连续动作灌溉控制中的常见深度强化学习方法。PPO作为近端策略优化的代表和演员-评论家框架，由于其良好的训练稳定性和可重复性，常被用作连续控制和具有不确定干扰场景的强大基线。其次，这三种方法对应于三种主流技术路线：价值学习、确定性连续控制和随机策略优化，允许在同一灌溉任务下进行互补比较，避免仅从单一算法类别中进行比较而产生偏见。最后，为了确保公平比较和工程可解释性，所有对比算法都在相同的环境和信息条件下运行，使用统一的训练预算和测试场景设置，确保性能差异主要源于算法机制本身，而不是信息优势或实验配置差异。

5 讨论

本研究将灌溉行动定义为两部分：“控制每个灌溉区域的灌溉水量”和“是否进行灌溉的开/关决策”。状态信息由“受控水分状态（根区含水量）”和“关键外生驱动因素（与作物阶段相关的变量、降雨量和参考蒸散量）”组成，结构上区分了环境状态和策略状态。下一个时间步的根区含水量变化由当前含水量、当前灌溉行动和当前气象/作物驱动因素决定（本研究使用土壤水分运动机制模型来描述这种受控动态）。因此，EN-PPO可以完全由当前信息表征。气象变量，如降雨量和参考蒸散量，在建模中被视为独立于灌溉行动的外生过程，不受灌溉行为的影响，通过观察或预测给出并随时间更新。由于这些外生驱动因素已被明确包含在状态向量中，决策时刻的状态可以涵盖影响下一个转换的关键因素，使得MDP假设“下一个状态的分布主要取决于当前状态和当前行动”在框架内有效。如果实际的田间水分动态显著依赖于更深的土壤剖面、地下水位和长期管理历史（这使用了根区含水量），当前的气象驱动因素可能导致部分可观察的（POMDP）风险。本研究选择根区含水量作为核心表示，基于其工程可测量性和控制相关性。后续工作可以通过添加更多可观察变量（如分层含水量、土壤参数的在线校准指标或历史行动摘要特征）来进一步提高状态完整性，以改善复杂场景下的马尔可夫近似和策略泛化能力。本研究在现有的有效性比较实验中增加了噪声和干扰鲁棒性测试，考虑了田间部署中的常见不确定性来源。它包括传感器观测噪声和通信问题。随机干扰被添加到关键观测值（如根区土壤含水量）中，以模拟测量误差和短期漂移。它忽略了或在个别时刻延迟了观测值的到达，这被认为是通信不稳定的反映。它还考虑了气象输入的不确定性。在降雨和参考蒸散量等外部输入中引入干扰，以模拟天气预报的偏差、局部阵雨的时空不均匀性以及高温条件下的蒸散量估算误差。构建了多种不同干扰强度的情景测试，以验证在不同分布下的鲁棒性。研究考虑了执行器和田间管理的干扰因素。由于阀门开启或流量波动导致的灌溉执行偏差也被纳入考虑范围，这些因素模拟了由于沟渠状况和地形差异造成的排水效率干扰。在上述干扰设置下，对算法进行了评估，并统一报告了与用水量、排水压力或积水风险相关的代理指标的均值和分散度，以及决策稳定性（例如，行为波动或频繁切换）。这是为了验证所提出的方法在观测、气象和执行过程中存在噪声和偏差时是否仍能保持稳定的性能并避免安全风险的显著增加。最后，尽管EN-PPO在本研究的情景中表现出优越的收敛稳定性和灌溉决策性能，但其在实际农场中的应用仍存在一些限制和适用性边界需要明确。第一个限制是EN-PPO算法的计算复杂性和训练开销。作为一种深度强化学习方法，EN-PPO将大部分计算负担放在离线训练阶段，特别是在需要大量情景和环境交互样本的情况下。训练迭代次数和环境交互样本的数量将显著增加；因此，其工程方法更适合“集中式离线训练/定期重新训练”，而不是长期的在线探索和学习。相比之下，部署阶段的在线推理计算量较小，更接近“实时决策者”，并且可以在更短的时间内输出灌溉建议。接下来是硬件和系统集成要求。在硬件层面，训练阶段通常需要具有足够计算能力的工作站或服务器来提高训练效率，而部署阶段可以使用农场中的常见工业控制计算机/边缘网关进行推理，但需要稳定的数据链接和传感器系统支持，包括根区湿度监测、气象/降雨数据访问以及与电磁阀/泵的控制连接。如果传感器漂移、数据丢失或通信不稳定，将直接影响状态观测的质量，从而降低策略输出的可靠性。因此，在实际应用中需要数据验证、异常检测和容错机制。最后是适用性边界和泛化能力。本文中的环境构建基于对特定实验地块的土壤类型、田间管理系统和气象条件的一定程度的抽象和简化。因此，EN-PPO策略的有效性仍需在不同地区、土壤质地、灌溉方法和频繁出现极端天气事件的情景中进行进一步验证和重新训练。关于作物，本研究使用水 spinach 作为研究对象，该策略结构具有转移到类似叶类蔬菜的潜力。然而，当作物根系深度、耐旱和耐涝阈值以及水分需求节奏存在显著差异时，仍需重新校准作物参数和安全边界，并建议采用“离线重新训练、小规模灰度试验运行和安全规则作为备用”的部署流程，以避免实际农场中因输入超出分布范围而引发的高风险灌溉行为。

6 结论

本研究探讨了强化学习在作物-土壤-天气耦合环境中的应用机制，用于水 spinach 的精准灌溉，并且重要的是，加强了所提出方法与可持续农业发展之间的联系。与以往主要关注直接算法部署的工作不同，我们的研究从环境信息建模和决策机制设计开始。通过整合环境信息增强的 PPO 框架，代理可以更有效地利用土壤湿度安全约束、生长阶段差异和未来降雨信息，实现灌溉决策的系统优化。实验结果表明，所提出的方法减少了无效灌溉和不必要的排水，提高了有效降雨利用率，并在减轻潜在积水风险的同时保持了作物的稳定生长和产量。这些结果与可持续性目标高度一致：提高用水效率有助于缓解农业水资源压力；减少过度灌溉和排水波动可以降低养分淋失和非点源污染风险，支持土壤健康和农场生态稳定性；增强对气象干扰的适应性有助于提高气候变异性下的生产韧性。总体而言，将农业过程机制与强化学习决策结构相结合是提高智能灌溉系统的可靠性、解释能力和泛化能力的一个有前景的方向，为不同作物和区域条件下的可持续节水灌溉管理提供了实际参考。

作者贡献

唐瑞鹏：概念化、方法论、软件、验证、形式分析、初稿撰写、可视化、审稿和编辑、调查。
唐建勋：数据整理、软件、验证、可视化。
孙伟：形式分析、审稿和编辑、方法论。
Narendra Kumar Aridas：资源提供、监督、项目管理。
Mohamad Sofian Abu Talip：调查、资源提供、验证。
所有作者都对手稿的批判性修订做出了贡献，批准了最终版本发表，并同意对工作的所有方面负责。需要承认所有作者都做出了重要贡献；根据《国际期刊编辑委员会》的最新指南，应提供每位作者对文章的贡献描述，即每位作者所扮演的角色。

资金

作者没有需要报告的内容。

利益冲突

作者声明没有利益冲突。

数据可用性声明

由于[隐私问题]，本研究生成和分析的数据集不对外公开，但可以根据合理请求从相应作者处获取。如需访问数据，请联系 [Ruipeng Tang]（tang823662722@gmail.com）。数据访问可能取决于是否遵守任何必要的数据共享协议以及是否符合研究的使用条款。

热点排行