基于Transformer编码器方法的逐小时FAO-56 PM推导作物蒸散量估算及其在热带园艺数据驱动灌溉管理中的深度学习应用

《AgriEngineering》:Deep Learning for Hourly FAO-56 PM-Derived Crop Evapotranspiration Estimation Using a Transformer Encoder Approach for Data-Driven Irrigation Management in Tropical Horticulture

【字体: 时间:2026年06月11日 来源:AgriEngineering 3

编辑推荐:

  准确估算逐小时作物蒸散量(crop evapotranspiration,ETc)对于热带园艺中数据驱动灌溉管理支持具有重要意义,然而现有方法受限于数据需求,并且难以捕捉多尺度时间动态。本研究提出了一种Transformer编码器模型,用于泰国东部尖竹汶府(C

  
准确估算逐小时作物蒸散量(crop evapotranspiration,ETc)对于热带园艺中数据驱动灌溉管理支持具有重要意义,然而现有方法受限于数据需求,并且难以捕捉多尺度时间动态。本研究提出了一种Transformer编码器模型,用于泰国东部尖竹汶府(Chanthaburi Province)榴莲果园中一步前瞻的逐小时FAO-56 PM推导ETc估算。研究使用了来自Visual Crossing Weather API的该果园位置4年共36,528条逐小时气象观测数据,并基于这些输入通过FAO-56 Penman–Monteith方程计算ETc。该模型采用168 h(7天)回看窗口、3个堆叠编码器模块、多头自注意力(multi-head self-attention,MHSA),以及5个气象输入特征,即气温、相对湿度、太阳辐射、风速和ETc。基于相同数据集训练的季节性自回归积分滑动平均模型(Seasonal Autoregressive Integrated Moving Average,SARIMA)作为统计学基线。Transformer在168 h测试集上取得了0.0308 mm/h的均方根误差(root mean squared error,RMSE)、0.0188 mm/h的平均绝对误差(mean absolute error,MAE)和0.9018的决定系数(coefficient of determination,R2),优于SARIMA(RMSE = 0.0717,MAE = 0.0593,R2 = 0.4688),分别实现了57.0%的RMSE降低、68.3%的MAE降低和92.4%的R2提升。Transformer在仅白天时段的RMSE亦达到0.0414 mm/h,而SARIMA为0.0791 mm/h;在日累计ETc的MAE方面,Transformer为0.1599 mm/day,而SARIMA为0.5901 mm/day,表明其在农学上关键时段具有更高精度。Transformer还能准确再现ETc的24 h昼夜周期与7天周周期,而SARIMA则表现出振幅衰减响应。递归168 h启发式模拟表明,该模型在近似气象情景下能够生成物理上合理的ETc模式,提示该方法值得作为未来灌溉决策支持研究组成部分进一步考察。这些结果凸显了基于Transformer的深度学习在热带果树生产中,利用气象输入进行地点特异性、概念验证性质ETc估算的潜力,但仍有待在不同地点与季节条件下进一步验证。
该文发表于《AgriEngineering》,围绕热带园艺场景下逐小时作物蒸散量(crop evapotranspiration,ETc)估算这一关键问题展开。研究背景在于,精准灌溉管理需要尽可能准确地匹配作物实际需水量,以提高水分利用效率、降低能耗并维持产量稳定。在热带果树生产中,灌溉调度对昼夜尺度和季节尺度的大气蒸发需求波动极为敏感,因而逐小时ETc估算对滴灌和微灌系统中的数据驱动决策尤为重要。榴莲作为泰国最重要的热带经济果树之一,在东部地区广泛栽培,而该地区长期干旱间歇和降雨时空分布不稳定,使得高时效性的灌溉决策更具现实必要性。

目前,FAO推荐的Penman–Monteith方程仍是计算参考蒸散量的国际标准,但其实际应用面临若干限制。首先,这一物理模型需要较完整的气象输入,包括净辐射、气温、湿度与风速,而农场尺度常存在气象监测缺失或数据中断,尤其是在发展中地区。其次,ETc计算还依赖经验性作物系数Kc的局地校准与动态更新,在热带环境中会引入额外不确定性。因此,能够直接从气象观测中学习ETc动态规律、减少显式物理参数依赖的数据驱动方法,成为值得探索的研究方向。既有机器学习(machine learning,ML)和深度学习(deep learning,DL)研究虽已用于ETc或参考蒸散量预测,但浅层ML方法在复杂时序结构刻画方面有限,LSTM与GRU等递归神经网络虽能处理非线性时间依赖,却可能难以充分建模热带果园中显著存在的24 h昼夜周期与7天周周期等长程时序模式。统计时序模型SARIMA具有可解释性与计算效率优势,但其本质上是单变量线性框架,不能同时纳入太阳辐射和湿度等同步气象驱动因子,也难以表达热带气候下由云量变化和降雨扰动带来的非平稳动态。基于此,研究人员开展本研究,尝试将Transformer编码器引入热带果园逐小时ETc估算,以评估其在多变量时序和长程依赖建模中的适用性。

研究人员以泰国尖竹汶府一处榴莲果园为单点研究对象,构建了地点特异性的概念验证研究。研究使用2021年8月至2025年9月期间共36,528条逐小时气象记录,数据来源为Visual Crossing Weather API,变量包括气温、相对湿度、太阳辐射和风速;目标变量ETc由上述输入通过FAO-56 Penman–Monteith方程外部计算得到。研究提出了一个多变量Transformer编码器模型,采用168 h回看窗口以覆盖1天昼夜周期和1周周期,通过堆叠多头自注意力(MHSA)模块从连续气象序列中学习ETc变化。作为比较,研究人员在相同数据分割条件下建立SARIMA统计基线模型。结果表明,该Transformer模型在单一168 h留出测试阶段上显著优于SARIMA,并且能够较好重现ETc的关键周期结构。论文的重要意义在于,它提供了热带果园环境中利用天气API数据开展逐小时FAO-56 PM推导ETc估算的初步证据,显示Transformer有潜力成为未来数据驱动灌溉决策支持研究的组成部分,但该成果仍限于单地点、单时段、PM推导目标变量和启发式模拟条件下的概念验证,尚不能直接推广为通用的田间运行系统。

在技术方法上,研究主要采用以下几个关键步骤。首先,研究对象为泰国尖竹汶府榴莲果园的单点逐小时气象队列,时间跨度4年,目标变量由FAO-56 Penman–Monteith方程推导得到。其次,研究按时间顺序先划分训练集、内部验证集和最后168 h测试集,再进行Min–Max归一化以避免数据泄漏。第三,使用增广Dickey–Fuller检验(Augmented Dickey–Fuller,ADF)、自相关函数(autocorrelation function,ACF)和偏自相关函数(partial autocorrelation function,PACF)分析序列平稳性并为SARIMA设定提供依据。第四,Transformer模型采用滑动窗口监督学习构样、本征位置编码、3层编码器堆叠、全局平均池化(Global Average Pooling,GAP)和全连接输出头,并以均方误差(mean squared error,MSE)为损失函数训练。最后,研究通过RMSE、MAE、R2、白天时段RMSE、日峰值ETc偏差和日累计ETc MAE等指标比较模型性能,并构建了基于72 h前气象特征复制的递归168 h启发式模拟。

在研究结果部分,论文首先报告了“3.1. Model Training”的结果。Transformer模型训练24个epoch后触发提前停止(early stopping),最佳权重来自第14个epoch。训练损失在前两个epoch快速下降,随后逐步收敛,在最佳检查点处训练损失为0.0016、验证损失为0.0017,二者始终接近,没有出现明显过拟合。这一结果说明,研究所采用的提前停止与最佳权重恢复策略有效获得了泛化性较好的模型。

在“3.2. Stationarity Analysis”中,研究人员对ETc时间序列进行平稳性检验。ADF检验显示原始ETc序列的统计量和p值已足以拒绝单位根原假设,说明该序列在原始形式下即具有平稳性;一阶差分后平稳性进一步增强。该结果支持SARIMA模型在本研究中的设定,也说明序列本身具备较强季节性和稳定周期结构。

在“3.3. ETc Estimation Performance on the Test Set”中,论文给出了核心性能比较。Transformer在168 h测试集上取得RMSE 0.0308 mm/h、MAE 0.0188 mm/h、R2 0.9018,明显优于SARIMA的RMSE 0.0717 mm/h、MAE 0.0593 mm/h、R2 0.4688。研究据此指出,Transformer对观测ETc变异的解释能力超过90%。进一步地,在与灌溉应用更相关的统计指标上,Transformer的白天时段RMSE为0.0414 mm/h,显著低于SARIMA的0.0791 mm/h,说明其对白天蒸散高发时段的重建更为准确。日峰值ETc偏差方面,Transformer为?0.0180 mm/h,SARIMA为?0.0965 mm/h,二者均低估日峰值,但Transformer低估幅度更小。日累计ETc MAE方面,Transformer为0.1599 mm/day,SARIMA为0.5901 mm/day,表明Transformer对每日总需水量的统计近似更精确。论文同时指出,SARIMA在训练集内拟合阶段可较好再现昼夜变化,训练RMSE为0.0392、R2为0.9539,但其测试集表现明显下降,提示该单变量线性模型对未见数据、尤其异常辐射与特殊气象条件的泛化能力有限。从可视化上看,Transformer更能跟踪测试周内ETc的昼夜波动,而SARIMA存在振幅衰减,并在高辐射时段持续低估白天峰值。作者同时谨慎说明,该测试周位于泰国雨季,尚不能代表旱季高辐射、高峰值ETc条件下的表现。

在“3.4. Future Forecasting”部分,研究人员进一步利用训练后的Transformer进行了递归168 h启发式模拟。方法是在每一步预测未来1 h ETc后,将该预测值回填到下一步输入序列,而未来气温、相对湿度、太阳辐射和风速则使用72 h前同一时刻的观测值近似替代。结果显示,模型在完整7天模拟范围内保持了物理上合理且稳定的昼夜模式:白天ETc显著升高,夜间接近于零,峰值大致保持在0.28–0.35 mm/h范围,且未见明显误差累积或系统漂移。这表明,在简化气象近似条件下,模型能够维持自洽的ETc昼夜节律。不过论文明确指出,这只是可行性演示,而不是严格意义上的业务化预报,因为未来外生气象输入并非独立预测所得。

在讨论部分,“4.1. Transformer Performance Relative to SARIMA”强调,Transformer相对SARIMA的明显优势与现有文献中深度学习优于经典统计模型的总体趋势一致,尤其是在可以同时使用多个气象驱动变量时更为明显。但作者也明确说明,这一比较在结构上并不平衡,因为Transformer和SARIMA在输入维度、时间上下文长度和模型族属性上同时存在差异,因此现有实验不能将性能提升归因于自注意力机制本身,而只能说明该组合式Transformer配置在本数据和本测试时段上优于单变量SARIMA基线。

“4.2. Role of Multivariate Inputs and Long Look-Back Window”指出,该研究的目标变量ETc本身是由4个气象变量通过FAO-56 PM方程推导而来,因此Transformer实质上是在从时序气象输入中逼近这一确定性函数关系,而不是预测独立实测的作物真实耗水。这一点对R2较高的解释非常关键。模型表现反映的是其对PM函数关系的逼近能力,而非对受气孔调控、土壤水分限制和冠层边界层效应共同作用的真实作物耗水过程的完整刻画。论文据此将结果边界界定得较为清晰。与此同时,168 h回看窗口使模型能够同时覆盖24 h昼夜周期和7天周周期,从结果上看,Transformer较SARIMA更好地再现了白天峰值的时序与幅度。

“4.3. Operational Applicability of Recursive Forecasting”认为,启发式模拟说明模型在近似未来气象输入下能够持续生成物理一致的ETc模式,这对于未来的运行场景是必要条件,但并非充分条件。因为真正的业务化多步预报需要与数值天气预报(numerical weather prediction,NWP)等独立气象预报系统耦合,而不是简单复制72 h前的气象特征。

“4.4. Implications for Smart Irrigation in Tropical Horticulture”讨论了该方法对热带园艺智慧灌溉研究的潜在启示。论文指出,该模型仅依赖常规气象变量,理论上可降低对昂贵传感设备的依赖;训练完成后推理成本较低,具备部署到边缘设备或云平台的可能;其一步前瞻与长窗口结构也提示其在关键果实发育期进行需水预估方面具有应用前景。但作者同时强调,所有这些都仍属未来应用研究方向,因为论文并未检验真实灌溉决策、田间节水成效或产量品质响应。

“4.5. Limitations and Future Research Directions”系统总结了研究局限。首先,输入数据来自天气API,而非果园原位IoT传感器;其次,目标ETc并非实测蒸散量,而是PM方程推导值;再次,研究仅基于单果园地点和单个168 h时间留出窗口,泛化性尚未建立。未来工作应包括:利用原位传感器和独立实测ETc进行田间验证;引入水汽压亏缺、土壤水分和地表温度等更多特征;与SARIMAX、Random Forest及更先进时序结构进行系统对比;以NWP替代72 h复制启发式;开展跨季节滚动起点评估,以及将模型嵌入闭环自动灌溉控制中进行田间试验。

研究结论部分可译述为:本研究开发并评估了一种Transformer编码器模型,用于泰国东部尖竹汶府榴莲果园一步前瞻的逐小时FAO-56 PM推导作物蒸散量(ETc)估算。研究基于该果园位置4年的Visual Crossing Weather API气象数据,并采用FAO-56 Penman–Monteith方程计算ETc,在相同数据划分条件下与SARIMA统计基线进行了比较。在168 h留出测试集上,Transformer取得RMSE 0.0308 mm/h、MAE 0.0188 mm/h和R2 0.9018,优于SARIMA的RMSE 0.0717 mm/h、MAE 0.0593 mm/h和R2 0.4688。模型间性能差异可能与多变量气象输入、168 h自注意力窗口和堆叠编码器模块有关,但本研究未能分离这些因素,因此不能将性能提升归因于任一单独设计选择。递归168 h启发式模拟表明,在72 h特征复制近似下,该模型能够生成物理上合理的昼夜ETc模式,但这仅属于概念验证,而非严格的业务化预报。总体而言,本研究应被理解为地点特异性的概念验证工作,说明Transformer编码器能够从逐小时序列气象观测中学习逼近FAO-56 PM函数关系,并在单地点单时段上优于SARIMA基线,但其结果仍需通过更多地点、作物类型、季节条件以及原位传感器和独立实测ETc数据进一步验证。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号