基于特征初始化的进化优化在短期太阳能功率预测中的机器学习模型应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computation》：Feature-Based Population Initialization for Evolutionary Optimization of Machine Learning Models in Short-Term Solar Power Forecasting Aleksei Vakhnin, Harri Niska, Anders V. Lindfors and Mikko Kolehmainen

【字体：大中小】 时间：2026年04月09日 来源：Computation 1.9

编辑推荐：

　　在太阳能预测中，模型性能高度依赖于超参数和特征子集的联合优化，但传统的基于种群算法随机初始化计算成本高。本文提出了一种集成特征选择方法，利用六种过滤相关度量的集成来引导NSGA-II多目标优化算法的初始种群生成，旨在加速机器学习模型（如LightGBM、XGBoost、CatBoost）的调优收敛。实验结果表明，该方法在算法早期阶段能促进更快收敛，并通过Wilcoxon检验证实了其有效性，为解决短期光伏功率预测的计算效率问题提供了新思路。

随着全球对清洁能源需求的增长，太阳能已成为最受欢迎的可再生能源之一。然而，太阳能的“看天吃饭”特性——其发电量受云量、降水、季节性太阳辐射等自然因素波动影响——给电网带来了显著的运行风险。电网公司需要在发电和消耗之间维持平衡，发电量低估会导致启用备用容量，高估则会造成经济损失。因此，准确预测光伏（PV）发电功率，特别是对未来60分钟的短期预测，对于调度控制、自动频率控制和储能优化等领域至关重要。尽管机器学习（ML）模型在此领域展现出巨大潜力，但其性能强烈依赖于超参数和特征子集的联合优化。传统的基于种群的优化算法（如进化算法EA）通常采用随机初始化，在复杂的高维搜索空间中，这需要耗费大量计算资源来评估广泛的候选解，才能识别出有效模式，导致收敛速度慢，计算成本高。在需要模型快速部署和更新的短期预测场景中，这是一个实际瓶颈。本研究正是为了应对这一挑战，旨在加速太阳能预测相关机器学习模型的多目标优化调优过程。

本研究主要采用了以下关键技术方法：首先，使用多种提升模型（LightGBM, XGBoost, CatBoost）进行60分钟提前量的短期太阳能功率预测。其次，模型调优采用NSGA-II（非支配排序遗传算法II）多目标优化算法，同时优化模型超参数和特征集。本研究的核心创新在于提出了一种基于特征的种群初始化方法，该方法集成了六种基于过滤器的相关性度量（如皮尔逊Pearson、斯皮尔曼Spearman相关系数等），计算特征与目标变量之间线性、单调和非线性关系，以此生成初始种群的先验概率分布，从而引导进化算法的搜索方向。最后，通过数值实验和Wilcoxon秩和检验来验证所提出方法的有效性。

2.1. 光伏发电预测模型的分类

研究者概述了光伏预测的四大主流方法：基于物理的模型、统计模型、机器学习模型和混合模型。基于物理的模型依赖物理公式和数值天气预报（NWP）数据，在理想（晴空）条件下表现良好，但在非理想条件下性能可能下降。统计模型（如线性回归、ARIMA）试图捕捉特征间的数学关系，解释性强但常因非线性依赖和天气多变而逊于ML模型。机器学习模型因其避免直接模拟复杂天气和局部条件方程的能力而成为高效且稳健的替代方案。然而，根据“没有免费午餐”定理，没有单一算法能解决所有问题，因此混合模型常被用来结合多种技术的优势。

2.2. 超参数优化与特征选择

这部分明确了构建预测模型的两个关键步骤。超参数调优方面，介绍了网格搜索、随机搜索、贝叶斯优化和基于EA的算法等。特征选择则分为过滤器方法（如Pearson、Spearman相关系数，独立于模型评估特征与目标的相关性）和包装器方法（基于特征对模型精度的影响进行选择，计算成本高）。研究指出，为了建立可靠模型，不仅需要选择合适的预测算法，还需妥善调优超参数并选择特征。因此，本文采用了一种同步进行超参数调优和特征选择的方法。

2.3. 多目标优化

此部分为研究奠定了方法论基础，将预测问题形式化为一个多目标优化（MOO）问题。目标是同时考虑模型的准确性（如预测误差）和复杂性（模型中特征的数量）。研究采用进化计算方法来解决这个在大而弱结构化的解空间中的多目标问题，并提供了相应的数学公式表述。这构成了后续提出方法的基础。

3. 提出的方法

（注：文档内容未提供第三节的详细文本，但根据摘要和引言，可归纳出）研究人员详细描述了所提出的基于特征初始化的方法。该方法的核心是利用一个集成过滤器，结合六种不同的相关性度量来分析特征与目标变量之间的关系，并基于此生成用于NSGA-II算法初始种群的概率分布。这旨在加速算法早期收敛，同时保留进化算法的探索能力。

5. 实验设置与数值结果

（注：文档内容未提供第五节详细文本，但根据摘要可归纳）研究进行了数值实验，使用所提出的初始化方法对LightGBM、XGBoost和CatBoost等提升模型进行调优。实验结果表明，与传统随机初始化相比，提出的方法在优化算法的早期阶段能有效促进更快的收敛。该结果的有效性通过了Wilcoxon检验的证实。

6. 数值结果讨论

（注：文档内容未提供第六节详细文本）此部分应对实验结果进行深入分析和讨论，比较所提方法与传统方法在不同指标下的表现，并解释其加速收敛的内在机制。

7. 结论与未来工作

本研究提出并验证了一种用于短期太阳能功率预测机器学习模型多目标优化的特征初始化方法。该方法通过集成多种过滤相关性度量来引导进化算法的初始种群，有效解决了随机初始化在早期搜索阶段效率低下的问题。结果表明，该方法能显著加速NSGA-II算法在调优模型超参数和特征集时的早期收敛速度，为处理高维、特征间存在复杂关系的太阳能预测数据集提供了一种更高效的解决方案。这一发现不仅有助于降低太阳能预测模型的计算成本和更新延迟，也对其他具有大量相关特征的预测问题（如能源系统、环境监测和工业过程）具有借鉴意义。未来的工作可以探索更多类型的过滤方法集成策略，并将该方法应用于更广泛的机器学习模型和优化算法中。

联系信箱：

粤ICP备09063491号

热点排行