光伏功率预测的批判性综述与战略路线图(2016–2026):应对时间泄漏与运行集成差距

《Energies》:A Critical Review and Strategic Roadmap of PV Power Forecasting (2016–2026): Addressing Temporal Leakage and Operational Integration Gaps

【字体: 时间:2026年06月23日 来源:Energies 3.2

编辑推荐:

  光伏(PV)功率预测在电力系统运行、电力市场以及高比例可再生能源整合中发挥着核心作用。在过去十年中,预测方法已从经典统计时间序列模型演变为先进的机器学习和深度学习架构。本综述分析了2016年至2026年间发表的119篇研究,对光伏功率预测方法进行了结构化评估,

  
光伏(PV)功率预测在电力系统运行、电力市场以及高比例可再生能源整合中发挥着核心作用。在过去十年中,预测方法已从经典统计时间序列模型演变为先进的机器学习和深度学习架构。本综述分析了2016年至2026年间发表的119篇研究,对光伏功率预测方法进行了结构化评估,包括模型类型、数据需求、验证策略和性能评估实践。除总结现有方法外,论文还指出了文献中的三个主要方法论缺口:(i)评估指标的碎片化限制了跨研究可比性;(ii)数据预处理程序和时间泄漏预防的报告不足;(iii)预测准确性与经济和运行性能指标的整合有限。研究人员对代表性研究进行了系统比较,以突出主导建模趋势和持续存在的局限性。除描述性总结外,本综述强调了所分析的119项研究在方法论报告方面的显著局限性,特别是在基于深度学习的预测中关于时间泄漏预防的问题。为解决这些问题,研究人员引入了一个可重复性检查清单,并提出了一项战略路线图,旨在加强统计准确性(如均方根误差(RMSE)/平均绝对误差(MAE))与电力市场运行相关性之间的联系。
论文对光伏(PV)功率预测研究进行了结构化综述,分析了2016–2026年间的119篇文献,聚焦于方法、验证、可重复性、时间泄漏预防及运行相关性。主体内容按以下结构展开:

**1. 引言**
光伏(PV)发电已成为全球能源转型的核心支柱。其固有变异性(受气象和地理因素影响)对电网稳定性、备用调度、市场参与及运行规划提出了关键挑战。尽管大量文献致力于改进预测方法,但该领域在应用目标、数据源、预测时域、建模方法、评估指标及报告实践方面存在高度异质性,阻碍了客观跨研究比较和标准化方法论的建立。

**1.1 综述的目标与范围**
本综述旨在提供结构化且批判性的综合,涵盖应用情境与运行目标、系统规模与部署特征、输入数据源与变量选择、预测方法论、预处理策略、预测时域、评估指标及实验透明度实践八个维度。其重点并非仅比较方法论性能,而是审视研究如何设计、评估和报告,以及这些设计选择如何影响可解释性和实际相关性。

**1.2 本综述的贡献**
贡献在于其整合性分析框架。通过多分析层组织文献,本综述突出了评估指标和报告单位的不一致性;识别了数据划分和泄漏预防实践中的文档缺口;检查了预测时域与运行目标的对齐程度;并讨论了现有研究中经济影响量化的局限性。该结构方法旨在促进方法论透明度改善和更有意义的跨研究比较。

**1.3 论文结构**
论文剩余部分组织如下:第2节描述文献选择和综述使用的分析框架方法。第3节分析应用情境和系统特征。第4节讨论输入数据源和变量选择实践。第5节检查预测方法和建模架构。第6节涉及数据处理和特征工程技术。第7节审查预测设计与评估,包括预测时域、时间分辨率以及确定性和概率性指标。第8节讨论可重复性和运行相关性,特别关注实验透明度、泄漏预防及预测结果的实际价值。最后,第9节提出主要结论并概述未来研究方向。

**2. 综述方法论**
本文采用结构化批判性综述方法,由系统搜索、筛选和分类程序支持。综述结合了系统元素(数据库搜索、明确纳入/排除标准、重复剔除、选定研究的结构化编码)与批判性叙事综合,旨在识别方法论缺口、报告不一致性和运行相关性。综述围绕以下研究问题展开:2016–2026年间发表的光伏功率预测研究如何应对预测方法、验证实践、可重复性、时间泄漏预防和运行相关性?

**2.1 文献搜索与选择程序**
在Scopus和ScienceDirect数据库中系统搜索2016–2026年出版物,关键词包括photovoltaic、power generation forecasting、solar energy、PV power generation,学科限制为工程、能源和多学科。仅纳入最终出版阶段的期刊论文,且均为开放获取。选择分三阶段:初始检索获得493篇;第一轮筛选摘要和结论后保留388篇;去重后369篇;第二轮应用更严格纳入标准(仅明确预测光伏电功率输出、报告定量评估指标如均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、归一化均方根误差(nRMSE)等、与运行应用相关),最终得到119篇。

**2.2 综述语料库的描述性特征**
最终语料库包含119篇同行评议期刊论文。研究活动主要集中在非热带地区(约83%),热带地区占9%,混合或多地点占8%。这种集中与中国和澳大利亚等具有大型光伏装机容量的国家密切相关。热带和高湿度地区由于降雨变异性大、对流活动频繁、云层形成迅速等,短期预测更具挑战性。地理不平衡与数据可用性挑战相关:成熟光伏部署地区受益于密集监测网络和长期历史记录,而新装机、小规模或数据稀缺地点则限制数据密集型机器学习(ML)和深度学习(DL)模型的直接应用。

**2.3 分析框架**
综述采用围绕十个相互关联维度的分析框架:应用情境、光伏数据与系统特征、天气数据与传感器、输入变量、系统元数据(前五个);模型与架构、预处理与特征工程(中间两个);评估指标、可重复性、管理相关性(后三个)。管理相关性分为高(明确测量经济或运行影响)、中(提及应用但无定量验证)、低(纯技术准确性评估)。系统规模按分布式屋顶、公用事业规模、宏观/国家聚合、研究/小规模、未分类编码。元数据报告评估倾斜角、方位角、逆变器限幅、退化率、阴影等。可重复性评估包括数据分割策略、验证策略、超参数调整、时间泄漏预防、随机种子报告。

**2.4 多层分析策略**
应用两层互补分析:第一层基于60项一致报告RMSE和MAE的研究进行定量基准比较,绘制准确性范围;第二层对所有119项研究进行十个维度的定性综合,捕捉输入选择倾向、验证策略、对外部数据的依赖程度以及与运行决策过程的整合程度。

**3. 应用情境与系统特征**

**3.1 运行目标**
运行目标分为三类:技术目标(电网稳定性、频率电压调节、斜坡率管理)、规划目标(发电调度、储能管理、备用分配)、商业目标(日前竞价、日内交易、减少惩罚)。许多研究定性描述运行相关性但未定量验证系统级或经济影响。

**3.2 系统规模与部署情境**
基于语料库,系统规模分为分布式屋顶系统(28%)、公用事业规模电站(30%)、宏观或国家聚合(17%)、研究或小规模系统(17%)、未分类(8%)。分布式屋顶系统关注建筑集成系统;宏观或国家聚合使用聚合数据;研究或小规模系统用于方法论验证;公用事业规模电站直接连接电网。

**3.3 地理分布与气候代表性**
单地点研究占63%,多地点(单个国家)占29%,跨国家占8%。跨国家研究引入更广泛气候对比,但高湿度热带地区仍代表性不足。地理选择直接影响数据集中的气候变异性。

**3.4 技术元数据报告缺口**
元数据报告在完整性和详细程度上差异显著。倾斜角、方位角、逆变器限幅、退化率、阴影条件等信息报告不一致。许多研究未提供全面元数据,限制了可重复性和跨研究可比性。

**4. 数据源与输入变量**

**4.1 气象数据源**
分为五类:现场测量(常用GHI、温度等)、数值天气预报(NWP)模型(如ECMWF、WRF等)、卫星与再分析产品(如MERRA-2)、第三方服务平台(如Solcast、Solargis)、多源组合。少数研究未指定或排除气象变量。单源方法占主导,多源策略为新兴趋势。

**4.2 输入变量多样性**
主要变量组包括历史光伏功率、太阳辐射参数(全球水平辐照度(GHI)、直接法向辐照度(DNI)、散射水平辐照度(DHI))、温度、风速。衍生参数(太阳位置角、儒略日等)和图像变量或运行参数(如系统年龄)也被纳入。变量选择缺乏统一标准。

**4.3 可扩展性与场地特定依赖性**
根据可扩展性和场地特定依赖性分类:高可扩展性(仅需地理坐标,公开数据)低依赖性;中等可扩展性(需逆变器日志);低可扩展性(需现场传感器或长期历史数据)。大多数研究(60%)表现出低可扩展性,需额外硬件或长期历史数据积累。

**5. 预测方法与架构**

**5.1 统计方法**
包括正则化回归模型(偏函数线性回归、降秩回归、Lasso惩罚)、时间序列模型(季节性自回归积分滑动平均模型(SARIMAX))、贝叶斯概率方法(贝叶斯自助分位数回归)。

**5.2 物理模型**
基于物理的模型链将NWP输出转换为功率,独立于历史生产数据,但性能受大气输入准确性约束。在语料库中只有2项研究。

**5.3 机器学习**
15项研究采用传统ML方法,分为神经网络模型(人工神经网络(ANN)、多层感知机(MLP)、极限学习机(ELM))、基于树的方法(随机森林(RF)、极端梯度提升(XGBoost)、支持向量回归(SVR))、多架构基准与k最近邻(KNN)方法。ML方法在中等数据可用性和计算资源有限情境下仍具相关性。

**5.4 深度学习**
58项研究采用DL架构,分为递归模型(长短期记忆网络(LSTM)、门控循环单元(GRU))、时空混合模型(卷积神经网络(CNN)+ LSTM/GRU)、基于Transformer的模型、基于注意力的模型、基于卷积的模型、结构化深度学习模型、联邦/部署模型、其他混合DL架构。DL在近期研究中占主导,但需要大型数据集和更高计算成本。

**5.5 混合模型**
29项研究整合多种技术,分为分解模型(变分模态分解(VMD)、经验模态分解(EMD))、DL与ML概率模型、生成DL混合模型、输入融合混合模型、ML-统计混合模型、ML-不确定性混合模型、多阶段混合模型、神经模糊混合模型、优化算法与DL混合模型、物理框架混合模型、预处理-DL混合模型、量子DL混合模型、信号处理与迁移学习混合模型。

**5.6 集成模型**
10项研究采用集成方法,包括堆叠模型(如SVR作为元学习器)、异质集成、同质集成(如多MLP中位数)、加权平均集成。集成旨在减少偏差、提高鲁棒性。

**6. 数据处理与特征工程**

**6.1 归一化与缩放策略**
75项研究明确应用归一化,主要方法包括Min-Max缩放(60%)、Z-score归一化(11%)。范围、参数来源、目标边界、处理阶段和特征分组等实施细节差异显著,39%的研究使用全局归一化(参数来自全数据集),49%使用训练集参数,存在潜在信息泄漏风险。

**6.2 特征工程与信号分解**
滞后特征被72%研究采用;滚动统计仅4.2%;信号分解(VMD/EMD)6.7%;频域方法(傅里叶/小波)5.9%;时间编码70项研究(线性/小时编码41%、循环编码10%、太阳几何编码13%)。

**6.3 异常检测与数据清洗**
37%的研究未透明报告预处理程序。综合数据清洗(35%)结合删除与插补;仅异常处理(11%)如孤立森林、三西格玛规则;物理过滤(10%)基于太阳高度角;缺失值处理(7%)如历史均值插补。

**7. 预测设计与评估**

**7.1 预测时域与时间设计**
时域分类:超短期(≤60分钟,29%)、短期(1-6小时)、日前(6-48小时,46%)、多日/季节。时间分辨率分为亚小时、小时、多分辨率、多小时/天。报告的不一致性包括:时域定义不统一、分辨率选择缺乏方法论证明(20项日前亚小时研究中17项未证明选择合理性)、未考虑NWP更新延迟、性能退化未修正。

**7.2 确定性评估指标**
RMSE(64%)、MAE(63%)、决定系数R2(39%)、MAPE(27%)、MSE(16%)、MBE(7%)。指标碎片化、归一化单位不统一(如相对于容量或均值)限制跨研究比较。

**7.3 概率性评估指标与报告问题**
仅9项研究采用概率预测,常用指标包括连续分级概率评分(CRPS)、Pinball Loss、预测区间覆盖概率(PICP)、预测区间归一化平均宽度(PINAW)。报告不完整:部分仅报告分布指标缺失区间可靠性,或依赖确定性指标。

**8. 可重复性与运行相关性**

**8.1 实验透明度与验证实践**
82%研究采用时间顺序分割;仅26%使用交叉验证;44%未明确报告超参数调整策略。仅22%同时采用时间分割、交叉验证和明确超参数调整。

**8.2 泄漏预防与随机可重复性**
仅37%研究明确解决时间泄漏预防;63%未报告或采用有风险方法。仅6%报告随机种子。仅8%提供公开数据集。无研究同时报告所有关键可重复性组件。

**8.3 光伏预测的运行与管理相关性**
仅1.7%研究量化实际效益(如经济节省);95.8%仅提及应用无定量证据;2.5%完全未讨论运行相关性。98%未量化经济或运行价值。提出应补充应用特定指标(如不平衡成本、备用激活成本、削减减少量、收入偏差)。

**8.4 未来光伏预测研究的战略路线图**
提出分阶段路线图:短期(<2年):建立标准检查清单、统一指标、透明数据划分;中期(2-5年):推进概率预测、物理信息机器学习、多元时间序列预测;长期(5-10年):集成预测-决策框架、经济导向验证、标准化基准平台。

**9. 结论与未来研究方向**
综述显示光伏预测方法复杂化与透明度和运行验证进展不匹配。三个主要缺口:评估指标碎片化;数据预处理与实验设计信息不足;统计性能与运行经济价值连接薄弱。提出向“预测2.0”转变,聚焦严格性、评估整合与运行整合。需加强报告标准、验证稳健性、模型复杂性证明及预测准确性与决策的联系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号