使用梯度提升树的多源气象–地形建模用于山地光伏电站月发电量预测

《Energies》:Multi-Source Meteorological–Topographic Modeling of Monthly Power Generation for Mountain Photovoltaic Stations Using Gradient-Boosted Trees

【字体: 时间:2026年06月23日 来源:Energies 3.2

编辑推荐:

  山地光伏(PV)电站越来越多地部署在复杂地形中,其发电量受太阳资源变化、近地表气象和局部地形的共同控制。然而,地形因子对区域尺度PV发电量的定量贡献尚未得到充分评估,许多预测研究依赖单站或短期记录。本研究将中国湖北省西部巴东县118个标准化村级山地PV电站的月

  
山地光伏(PV)电站越来越多地部署在复杂地形中,其发电量受太阳资源变化、近地表气象和局部地形的共同控制。然而,地形因子对区域尺度PV发电量的定量贡献尚未得到充分评估,许多预测研究依赖单站或短期记录。本研究将中国湖北省西部巴东县118个标准化村级山地PV电站的月实测发电量(2019–2021年)与Solargis全球水平辐照度(GHI)相关太阳资源数据、高分辨率格点气象数据、25 m数字高程模型、季节循环变量和历史发电特征相整合。在经季节性分组的中位数绝对偏差(MAD)异常值筛选、基于地理信息系统(GIS)的空间匹配、地形提取和视域派生遮阳分析后,研究人员在时间序列验证和站点排除空间交叉验证下比较了回归模型和气候学基线。在严格的时间序列验证中,CatBoost在测试模型中取得了最佳时间性能(R2 = 0.3119,MAE = 2719.7 kWh,RMSE = 3245.6 kWh),略优于月气候学基线。在站点排除空间交叉验证中,XGBoost取得了最高的平均R2(0.8659),表明其对未见站点具有良好的空间可迁移性。相关分析和偏相关分析表明,温度相关变量组和月辐射是主导气象控制因素,而高程、坡度和地形遮阳与已建站点的月发电量呈弱直接相关。进一步利用残差自助法估计了年90%预测区间,经验覆盖率为94.9%。所提框架为已建山地分布式PV电站的月发电量预测和运行评估提供了实用基础,但其在新建场址选择中的应用需要额外的场地工程和近场遮挡信息。
论文《Multi-Source Meteorological–Topographic Modeling of Monthly Power Generation for Mountain Photovoltaic Stations Using Gradient-Boosted Trees》发表在《Energies》期刊上,围绕山地光伏(PV)电站的月发电量预测展开研究。以下为解读文章。

**研究背景**
光伏(PV)发电在减少化石燃料依赖和支持低碳能源转型中扮演关键角色。然而,PV系统受太阳辐射、云况、温度和局部运行条件的时间变异性强烈影响,给电力系统平衡、电力交易和储能调度带来挑战。现有预测研究多强调气象因素(如辐照度和温度),较少在统一框架中量化地形因素(如高程、坡度、坡向和地形遮挡),且常基于单站或短期数据,难以评估模型在地形异质性区域的泛化能力。同时,区域尺度的PV评估需要整合实测发电量、格点气象数据、太阳资源产品和数字高程模型(DEM)衍生的地形属性,但多源融合的实用流程尚不成熟。为填补这些空白,研究人员以中国湖北省西部一个代表性山区县(巴东县)的118个标准化村级山地PV电站为区域样本,开展研究。

**研究内容与结论**
研究人员整合了2019–2021年118个标准化村级山地PV电站的月实测发电量、Solargis全球水平辐照度(GHI)相关太阳资源数据、高分辨率格点气象数据(来自中国气象局陆面数据同化系统CLDAS-V2.0)、25 m空间分辨率的ASTER全球数字高程模型(GDEM V003)衍生的地形变量(高程、坡度、坡向、基于视域的地形遮阳比)、季节循环变量和历史发电特征。经过季节分组的中位数绝对偏差(MAD)异常值筛选、GIS空间匹配和特征构建,对比了岭回归、随机森林(RF)、LightGBM、XGBoost和CatBoost五种回归模型,以及三种气候学基线(月气候学、站点气候学、站点-月气候学)。采用严格时间序列验证(2019–2020训练,2021验证)和站点排除空间交叉验证(整站排除)两种策略评估模型性能。主要结论包括:(1)基于三年平均年利用小时数,大部分电站处于一般或中等水平,平均值为916.7 h。(2)在严格时间序列验证下,CatBoost取得最优时间性能(R2 = 0.3119,MAE = 2719.7 kWh,RMSE = 3245.6 kWh),但与月气候学基线差异不显著。(3)在站点排除空间交叉验证中,XGBoost取得最高平均R2(0.8659),树模型在已有站点间空间可迁移性强。(4)温度相关变量、月辐射、季节循环和历史发电特征是主要预测信息源;地形指标与已建站点的月发电量直接相关性弱,因为工程选址已排除了极端不利地形。(5)基于残差自助法估计的年90%预测区间经验覆盖率为94.9%,提供实用不确定性量化。该框架适用于已建山地PV电站的月发电量预测和运行评估,但新建场址选择需额外信息。

**关键技术与方法**
研究人员采用了以下主要技术方法:(1)数据来源:118个标准化村级山地PV电站(2019–2021年,中国湖北省巴东县)的月实测发电量,所有电站装机容量统一为200 kW,使用265 Wp多晶硅组件。(2)太阳资源数据:Solargis全球太阳能源数据集中的年总辐照度和月全球水平辐照度(GHI)变量,空间分辨率约1 km。(3)气象数据:CLDAS-V2.0格点气象数据(气温、最高温、最低温、降水、相对湿度、辐射相关场),原始1小时数据聚合至月尺度,空间分辨率0.01°。(4)地形数据:ASTER GDEM V003(25 m分辨率),提取高程、坡度、坡向;基于ArcGIS视域分析计算地形遮阳比(SR),考虑2000 m半径内可见/遮挡像元数。(5)质量控制:季节分组MAD异常值筛选(阈值k=3),最终保留3920个样本。(6)预测模型:岭回归(线性基线)、随机森林(Bagging集成)、LightGBM、XGBoost、CatBoost(梯度提升树),超参数通过网格搜索按时间验证RMSE最小化确定。(7)特征构建:原始预测因子包括降水、平均气温、相对湿度、最高/最低温、月辐射、高程、坡度、坡向、遮阳比,增加季节循环变量(sin(2πm/12)、cos(2πm/12))和历史发电特征(同站月气候学、站点均值、月均值、同站月异常比)。(8)验证设计:严格时间序列验证(2019–2020训练,2021验证)和站点排除空间交叉验证(每次排除一个完整站点,118折)。(9)不确定性量化:残差自助法,对月验证残差重采样生成年预测区间。

**研究结果**
**3.1 背景太阳资源与电站发电差异**
研究人员基于Solargis数据发现,研究区年总太阳辐照度约823–1279 kWh m?2,空间异质性显著,高辐照区位于中北部和南部开阔地形,低辐照区位于深切河谷和地形遮阳区。月发电量热图显示明显季节变化,高发电量集中在4–9月,低发电量在11–2月,且存在站间差异。根据三年平均年利用小时数,按IEC 61724-1标准分类,大部分电站为一般或中等,平均值916.7 h,范围796.1–1013.2 h。

**3.2 模型性能比较**
在2021年独立验证中,CatBoost取得最优时间性能(R2=0.3119,MAE=2719.7 kWh,RMSE=3245.6 kWh),月气候学基线也具竞争力,表明季节循环是强预测因子。误差分布显示CatBoost存在轻微低估(平均误差390.0 kWh)。学习曲线显示训练R2约0.96–0.97,验证R2从0.65升至0.69,泛化差距约0.27。配对Wilcoxon符号秩检验(Holm–Bonferroni校正)表明,CatBoost绝对误差显著小于LightGBM、XGBoost、RF、岭回归、站点气候学和站点-月气候学,但与月气候学基线差异不显著(p=0.299)。

**3.3 站点排除空间交叉验证**
在站点排除实验中,XGBoost取得最高平均R2(0.8659)和最低RMSE(2075.8 kWh),LightGBM和RF紧随其后。树模型空间验证R2均高于0.84,而岭回归表现差,表明线性关系不足以表征复杂山地空间可迁移性。

**3.4 特征分布与相关结构**
皮尔逊相关分析显示月发电量与气温变量(平均温r=0.77、最低温r=0.74、最高温r=0.70)和月辐射(r=0.63)强相关,与地形指标(高程r=?0.03、坡度~0、遮阳比r=0.01)弱相关。降水与发电量正相关(r=0.356),但控制月辐射和平均温后偏相关极弱(r=0.010,p=0.524),反映季节协变而非直接因果。气温变量间高度共线性(相关性>0.9),故解释为温度相关变量组。

**3.5 特征重要性与驱动因素**
基于CatBoost的分组置换重要性(2021时间验证)表明,历史发电特征是最强预测组,其次为季节循环变量。若干气象组置换重要性接近零或负值,因与季节和历史的强共线性,不应解读为物理不重要。

**3.6 年发电量不确定性估计**
使用CatBoost的残差自助法,年90%预测区间经验覆盖率为94.9%,平均区间宽度约35,082 kWh,表明在短历史记录下月-年预测仍存在不确定性。

**讨论与结论**
讨论部分指出,模型表观技能强烈依赖验证设计。时间验证中机器学习相对月气候学基线提升有限,反映2021年存在未完全表征的年际或运行变异。空间交叉验证R2较高,说明已有站点间可迁移性强于跨年外推。地形指标弱直接相关源于工程选址已过滤极端不利条件,而非地形不重要。DEM分辨率影响坡度和遮阳估算,25 m为实用折中。月时间步适用于中期评估,但无法解析短时变异性。该框架应视为已建电站的月发电量预测与评估工具。研究结论翻译如下:
(1)118个电站呈明显季节发电变异性与中等站间差异,三年平均年利用小时数为916.7 h。
(2)严格时间验证下CatBoost性能最优(R2=0.3119,MAE=2719.7 kWh,RMSE=3245.6 kWh),但相对月气候学基线提升有限,两年训练记录下跨年外推仍具挑战。
(3)站点排除空间交叉验证显示更强可迁移性,XGBoost平均R2达0.8659,树模型可良好迁移至相似气候与运行条件下的未见站点。
(4)温度相关变量、月辐射、季节循环和历史发电特征是主要预测信息源;地形指标与已建站点月发电量直接相关性弱,因工程选址已排除极端不利地形。该框架最适用于现有山地PV电站的月发电量预测与运行评估,而新建场址选择需额外工程、土地、电网接入和近场遮挡信息。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号