季节与应力条件下基于机器学习模型的高分辨率光伏(PV, Photovoltaic)功率预测

《Scientific Reports》:High-resolution photovoltaic power forecasting using machine learning models under seasonal and stress conditions

【字体: 时间:2026年06月19日 来源:Scientific Reports 3.9

编辑推荐:

  准确的分小时(sub-hourly)分辨率短期光伏(PV, Photovoltaic)功率预测对维持电网可靠性和支持可再生能源并网至关重要。研究人员使用Yulara太阳能系统(327.6 kW)的高分辨率数据重采样为5、10和15分钟间隔,将六种机器学习模型与

  
准确的分小时(sub-hourly)分辨率短期光伏(PV, Photovoltaic)功率预测对维持电网可靠性和支持可再生能源并网至关重要。研究人员使用Yulara太阳能系统(327.6 kW)的高分辨率数据重采样为5、10和15分钟间隔,将六种机器学习模型与持续性(persistence)基线进行基准对比。研究人员开发了完整的预处理框架,包含周期性时间编码、滞后(lag)与滚动统计特征、基于四分位距(IQR, Interquartile Range)的离群值滤波,以及使用RandomizedSearchCV结合TimeSeriesSplit的超参数优化。评估模型包括XGBoost、决策树(Decision Tree Regressor)、线性回归(Linear Regression)、岭回归(Ridge Regression)、套索回归(Lasso Regression)和弹性网络(Elastic Net)。研究人员采用多误差指标(MAE, RMSE, WAPE, SMAPE及skill score)在训练集、验证集、测试集、季节子集及夜间与高变辐照度应力情景下进行评估。结果表明树基模型在精度和鲁棒性上显著优于线性回归模型。决策树取得最优综合性能,MAE为0.33–0.54 kW,RMSE为0.82–1.65 kW,较persistence预测skill score提升97–98%;XGBoost在各时间分辨率和季节变化下也表现稳定。相反,线性模型捕捉PV非线性行为的能力有限,尤其在高变条件下表现较差。研究结果凸显了树基方法适用于智能电网应用中准确、可解释且具韧性的短期PV功率预测。
论文解读:季节与应力条件下基于机器学习模型的高分辨率光伏功率预测
该论文发表于《Scientific Reports》。当前全球能源转型推动太阳能光伏(PV, Photovoltaic)系统大规模并网,但PV出力受云量、温湿度及昼夜循环影响呈间歇性与强非线性,给电网调度、微网运行及自动发电控制带来挑战。超高分辨率(5~15 min)的短期PV功率预测是实现实时调控与频率调节的关键。现有研究多聚焦单预测步长、使用原始气象数据且忽略高变(快速云遮)与夜间等边缘工况,缺乏多时间分辨率下经典机器学习模型的系统性基准测试。此外多数先进深度学习(DL, Deep Learning)模型计算开销大、可解释性差,且对单站点数据易过拟合。为此,研究人员基于澳大利亚Yulara实际运行PV电站(327.6 kW)约9.29年高频历史数据,系统构建严格时序一致的预处理与特征工程流程,对六种经典机器学习算法在5、10、15分钟分辨率下进行多指标基准评测,并在季节子集及夜间/高变辐照应力情景下检验模型鲁棒性,明确树基模型在亚小时级PV预测中的优势。
主要关键技术方法
研究人员采用Yulara Solar System(327.6 kW)实测数据集(964,421条记录,含有功功率、风速、总辐射Pyranometer_1、环境温度等15变量,时间跨度2016–2025)。按7∶1.5∶1.5做严格时间顺序切分训练/验证/测试集,各子集独立重采样至5/10/15 min均值聚合。预处理含:①IQR(Interquartile Range, 四分位距)×1.5法检测Active_Power异常并置NaN后按分区填补——训练集时间感知插值+前向填充,验证/测试仅前向填充防信息泄露;②物理合理性限幅(clipping,如辐照≤1200 W/m2、风向0–360°等)及剔除常值特征;③特征工程——周期编码(hour/day的sin/cos变换)、滞后特征(Active_Power_lag_1/lag_12/lag_288对应各分辨率下短/中/长历史依赖)及滚动均值(rolling_mean_12/rolling_mean_288)偏移一步防泄露;④SelectKBest(f_regression, k=15)嵌入TimeSeriesSplit五折交叉验证做特征选择,MinMaxScaler仅拟训练集后变换全部分区。六种模型——决策树(Decision Tree Regressor)、XGBoost(eXtreme Gradient Boosting)、线性回归(Linear Regression)、岭回归(Ridge Regression)、Lasso回归(Least Absolute Shrinkage and Selection Operator)、弹性网络(Elastic Net)——对照persistence基线(固定lag_288步,即5 min对应1日、10 min对应2日、15 min对应3日),超参数由RandomizedSearchCV+TimeSeriesSplit寻优,XGBoost设early_stopping_rounds=10防过拟合。评估指标含MAE(Mean Absolute Error)、RMSE(Root Mean Squared Error)、nMAE、nRMSE、R2(Coefficient of Determination)、WAPE(Weighted Absolute Percentage Error)、SMAPE(symmetric Mean Absolute Percentage Error)及Skill Score=1-RMSEmodel/RMSEpersistence,日间过滤Active_Power>10 kW,附加夜间(Active_Power≤10 kW)与高变(rolling SD>P75)应力测试及四季分季评价。
研究结果
Results at 5-minute horizon
在5分钟分辨率测试集上,决策树MAE达0.3583 kW,XGBoost的R2达0.9997,二者散点紧密沿对角线分布;persistence基线RMSE≈33.55 kW,线性模型RMSE最高达3.79 kW以上。研究人员指出树基模型借助自回归滞后特征阈值分裂可捕捉云遮等突变非线性动态,而线性假设无法拟合PV功率与气象因子的复杂交互及阶跃变化,证实树基模型在最高频分辨率下显著优于线性模型与persistence。
Results at 10-minute horizon
10分钟分辨率下决策树MAE降至0.3423 kW,XGBoost R2升至0.9999,persistence RMSE≈36.37 kW。时间聚合平滑部分短时波动使树基与线性差距略缩,但树基仍全面占优,表明模型对适度时间聚合具备良好适应性。
Results at 15-minute horizon
15分钟分辨率进一步平滑波动,决策树夏季MAE低至0.3313 kW,Skill Score达97.89%,XGBoost R2保持0.9999;线性回归RMSE仍达2.48 kW以上,persistence RMSE≈37.42 kW。结果说明即便降低时间分辨率,树基方法精度与鲁棒性依旧突出,适合业务化短期预报。
Seasonal variation analysis
分春、夏、秋、冬四季评估显示:决策树在日照稳定夏季最优(15 min MAE=0.3349 kW,R2=0.9999),XGBoost四季R2≈0.9996且波动小;线性模型在秋冬高变季节误差剧增(5 min RMSE达5.49 kW),persistence全年WAPE最高达29.65%。证明非线性自适应模型对季节气候差异具备更好泛化能力。
Stress test performance metrics
夜间(Active_Power≤10 kW)情景决策树MAE仅0.1204 kW(5 min),对近零出力预测稳健;高变辐照(rolling SD>P75)情景XGBoost R2=0.9979(5 min),擅捕快速波动,线性模型此情形下MAE达2.51 kW、RMSE 7.48 kW。表明树基模型在极端与边缘运行条件下保持高预测可靠性。
Walk-forward validation metrics
五折TimeSeriesSplit游走验证显示决策树5 min MAE=0.4417±0.1188 kW,XGBoost R2=0.9997±0.0001,标准差极小;线性模型RMSE跨折波动大(SD可达0.82)。证实树基模型时序泛化稳定性好,适合近似实时部署环境。
讨论与结论翻译
本研究利用5、10、15分钟重采样的亚小时现场PV数据,对六种机器学习模型开展全面基准测试。决策树一致优于其他模型,15分钟分辨率最低MAE为0.33 kW,各时间尺度Skill Score最高达98%;XGBoost同样表现稳健(MAE 0.35–0.55 kW,Skill Score>95%)。相比之下,基于线性回归的模型误差较大(MAE>0.65 kW)且Skill Score较低,反映其捕捉PV发电非线性动态的能力有限。所提出的含周期时间编码与目标滞后特征的预处理流程有效提升了预测精度与模型稳定性。夜间及高变辐照度间隔下的应力测试表明树基模型保留较高预测能力(Skill>90%),凸显其在挑战性场景中的鲁棒性。本研究局限在于实验基于单一PV场站(Yulara, Australia),结论在不同地理气候及容量的推广性有待验证。总体而言,先进树基机器学习方法在精度、韧性和运行相关性上为PV功率并入类此电网提供了优势。未来工作将在多气候区多容量电站验证迁移性,探索贝叶斯(Bayesian)优化、混合及DL架构(LSTM, BiLSTM, Transformer)对照、概率预测与不确定性量化,以及模型可解释性与实时部署扩展性研究。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号