《Array》:Hybrid Cloudiness-Irradiance Modeling for Enhanced 24-Hour Solar Forecasting with Multi-Source Data
编辑推荐:
准确的太阳辐照度预报对于优化光伏(Photovoltaic, PV)能源集成、提升电力市场参与度以及降低日内交易中的不平衡成本至关重要。然而,现有方法往往依赖单一数据源、昂贵的实时信息或公共数据库的低频更新,限制了其有效性。为解决这些挑战,研究人员提出了一种系
准确的太阳辐照度预报对于优化光伏(Photovoltaic, PV)能源集成、提升电力市场参与度以及降低日内交易中的不平衡成本至关重要。然而,现有方法往往依赖单一数据源、昂贵的实时信息或公共数据库的低频更新,限制了其有效性。为解决这些挑战,研究人员提出了一种系统级混合框架,将多源气象数据集与先进人工智能技术相结合。该方法在24个人工神经网络(Artificial Neural Network, ANN)堆叠架构内融合机器学习(Machine Learning, ML)与深度学习(Deep Learning, DL)方法,将随机森林(Random Forest, RF)和极限梯度提升(eXtreme Gradient Boosting, XGB)模型的云量预测与卷积神经网络-变换器(Convolutional Neural Network-Transformer, CNN-Transformer)架构的辐照度预测进行整合。利用开放获取的第五代欧洲中期天气预报中心再分析数据集(ERA5)和西班牙国家气象局(Spanish State Meteorological Agency, AEMET)数据集,该框架提供精确的确定性24小时提前预报,每小时更新一次,与持续性基线相比,均方根误差(Root Mean Square Error, RMSE)降低了43.86%,与独立组件模型相比最高降低31.88%。系统的消融实验验证了各组件的贡献,证明了其在多样化天气条件下的鲁棒性能。该系统为伊比利亚半岛的太阳能管理提供了一种经济高效、区域可扩展的解决方案。
随着全球脱碳进程加速,光伏(PV)能源在可持续能源系统转型中的地位日益凸显。现代智能电网正积极整合分布式能源以提升稳定性并优化市场参与。在此背景下,准确的全球水平辐照度(Global Horizontal Irradiance, GHI)预报成为优化PV交易策略、最小化不平衡成本及提升日内市场竞价的关键。然而,GHI受云量等大气因素的高度可变影响,特别是云层快速动态变化导致的辐照度骤变,给维持电网稳定运行带来巨大挑战。现有的太阳预报研究虽已从早期经验模型发展到机器学习(ML)与深度学习(DL)模型,但仍存在关键瓶颈:多数方法依赖单一数据源,缺乏将免费公开的区域数值天气预报(Numerical Weather Prediction, NWP)、全球再分析数据与实时地面辐照度测量在针对特定预报时效的融合框架中结合的方案,导致模型难以适应白天的快速天气变化。为此,研究人员提出了一种系统级混合预报框架,旨在解决上述问题,相关成果发表在《Array》。
为实现研究目标,研究人员采用了几项关键技术方法。在数据层面,整合了西班牙国家气象局(AEMET)的NWP数据、欧洲中期天气预报中心(ECMWF)的ERA5再分析数据以及现场总日射表(pyranometer)数据,构建了覆盖伊比利亚半岛的多源数据集。在模型构建上,设计了两个独立的基模型:基于云量的模型采用随机森林(RF)与极限梯度提升(XGB)处理AEMET气象数据;基于辐照度的模型采用卷积神经网络-变换器(CNN-Transformer)架构处理历史辐照度序列。在融合策略上,创新性地引入了24-ANN堆叠元模型架构,即为未来24小时的每一个预报时效训练一个独立的人工神经网络(ANN)进行加权融合,取代了传统的全局权重融合方式。
研究结果
2.1. 数据集描述
研究人员选用了三种互补的数据源。ERA5数据集提供了高分辨率的全球大气再分析数据,包含地表向下短波辐射(SSRD)和环境温度,用于捕捉大尺度大气模式。AEMET数据集提供了伊比利亚半岛本地化的NWP数据,空间分辨率达2.5 km × 2 km,包含云量因子(CCF)和温度,每日更新以弥补ERA5的月度更新延迟。现场总日射表则提供实时的GHI测量值,确保预报系统的操作自主性。
2.2. 数据处理流程
研究人员建立了标准化的预处理管道。首先对AEMET数据进行异常值检测(基于分位数分析)和线性插值对齐。随后通过皮尔逊相关性分析和特征重要性评估进行特征选择,并引入13小时和25小时云量滑动平均变量以捕捉关键时间动态。所有数据归一化至[0, 1]区间,并按70%、15%、15%划分为训练集、验证集和测试集。
2.3. 提出的混合模型
2.3.1. 基于云量的模型
该模型每日00:00运行一次。工作流程分为三步:首先利用ERA5的历史数据训练XGB模型建立TCC(总云量)与GHI的关系基线;其次利用AEMET的CCF数据训练RF模型预测未来的TCC';最后结合两者生成最终的24小时GHI预报,有效解决了ERA5云量数据更新滞后的问题。
2.3.2. 基于辐照度的模型
该模型每小时运行一次。采用CNN-Transformer架构,输入为过去96小时的辐照度序列。经过贝叶斯超参数优化,确定使用RMSProp优化器和平均绝对误差(MAE)损失函数。该模型利用滑动窗口机制,能够捕捉复杂的时序依赖关系。
2.3.3. 模型的混合
研究人员评估了多种融合策略,发现由于两个基模型在不同预报时效的准确性存在差异(清晨云量模型优,午后辐照度模型优),传统的单一全局融合模型效果不佳。因此采用了24个独立的ANN分别对24个预报时效进行融合。
2.4. 模型实现
实验在配备NVIDIA RTX 4090 GPU的高性能工作站上进行。基于云量的模型使用Python的scikit-learn库实现,基于辐照度的模型使用TensorFlow和Keras实现。训练过程中采用了早停法(耐心值20轮)防止过拟合。
3. 结果与讨论
3.1. 评估指标
使用决定系数(R2)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)以及归一化均方根误差(nRMSE)进行评估。
3.2. 模型评估
基于云量的模型在测试集上RMSE为101.829 W/m2,基于辐照度的模型RMSE为102.919 W/m2。24-ANN混合模型表现最佳,RMS降至70.105 W/m2,相比两个基模型分别提升了31.15%和31.88%。热力图分析显示,混合模型成功结合了云量模型在清晨的优势和辐照度模型在午后的优势。
3.3. 计算成本与可扩展性
离线训练CNN-Transformer在标准笔记本电脑CPU上耗时约8小时,但在线推理延迟仅为57.93毫秒,峰值内存占用4.36 GB,完全满足日内市场每小时更新的操作需求,无需GPU支持。
3.4. 结果解释
混合模型在不同天气类型下均表现最优。在晴天、多云和混合天气下,其RMSE分别为50.24 W/m2、74.28 W/m2和53.96 W/m2。特别是在混合天气下,相比基模型展现了显著的稳定性提升。
3.5. 模型局限性
研究指出当前系统的三个限制:一是受限于AEMET的日更新频率,云量模型每日仅能预测一次;二是地理范围目前局限于拥有AEMET数据的伊比利亚半岛;三是极端连续阴天条件下,由于基模型输入质量下降,混合模型性能会受到影响。
结论与未来工作
本研究成功开发了一种系统级混合框架,通过整合多源数据与24-ANN元模型架构,显著提升了24小时太阳辐照度预报精度。该系统每小时更新,无需特定电站的历史数据即可部署,具有极高的区域可扩展性和经济适用性。未来工作将聚焦于提升时间分辨率至15分钟、扩展至伊比利亚半岛以外的地理区域,并引入概率预报以支持更复杂的电网优化决策。