SolarImputer：基于条件扩散模型的时空太阳辐照度估算模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Renewable Energy》：SolarImputer: Conditional diffusion-model based spatio-temporal solar irradiance imputation model

【字体：大中小】 时间：2026年04月29日 来源：Renewable Energy 9.1

编辑推荐：

　　邵山|魏静窦|王凯|魏海坤|张侃建中国东南大学自动化学院，教育部复杂系统测量与控制重点实验室，南京210096 **摘要** 在分布式光伏监测系统中，缺失观测数据非常普遍，这会严重削弱基于辐照度的下游应用的可靠性。现有的太阳辐照度估算方法往往侧重于单个站点的时间依

　　邵山|魏静窦|王凯|魏海坤|张侃建
中国东南大学自动化学院，教育部复杂系统测量与控制重点实验室，南京210096

**摘要**
在分布式光伏监测系统中，缺失观测数据非常普遍，这会严重削弱基于辐照度的下游应用的可靠性。现有的太阳辐照度估算方法往往侧重于单个站点的时间依赖性建模，而未能充分利用地理分布站点之间的时空耦合性和多变量结构。为了解决这一局限性，本文提出了SolarImputer，这是一种基于条件扩散的时空估算框架，能够对多个区域的太阳辐照度序列进行联合重建。该框架包括三个组成部分：首先，基于物理的太阳轨迹信息为缺失数据提供了先验的晴空填充；其次，利用易于获取的气象变量提取时间-频率-空间条件特征来指导生成过程；最后，条件扩散模型对初始序列进行优化，以产生空间上连贯且物理上合理的太阳辐照度重建结果。在包含国家太阳辐射数据库中八个区域和SolarCube数据集中六个区域的公共数据集上的实验表明，所提出的方法比代表性基线方法具有更低的重建误差，相对改进率在6.8%到60%之间，适用于不同的缺失比例和缺失模式。在高缺失率和长间隙情况下，性能提升更为显著，表明该方法对实际传感器故障具有更好的鲁棒性。

**引言**
根据国际能源署（IEA）[1]的数据，2024年全球太阳能光伏（PV）装机容量继续增长，新增约550吉瓦，累计装机容量达到2.2太瓦。然而，由于光伏发电的固有波动性和不确定性（主要由随机太阳辐照度变化和气象波动驱动），这种大规模部署带来了显著的电网整合挑战。为了降低这些运营风险，现代光伏电站部署了全面的传感器网络进行实时环境监测。先进的预测系统通过整合数值天气预报（NWP）模型和机器学习（ML）算法来利用多源数据流。因此，近年来辐照度预测技术取得了快速进展[2]，特别是在多模态[3]和时空场景[4]方面。这种进步，尤其是在分布式发电环境中，伴随着人工智能在光伏系统管理中的日益集成。然而，实际挑战包括传感器故障、偏远地区物联网（IoT）连接不可靠以及维护延迟，这些因素经常导致本地光伏数据库中出现大量缺失数据[5]。辐照度观测数据的缺失给太阳能预测和电网调度带来了重大不确定性，因为缺失值会干扰天气分类和发电预测，从而导致能源管理不善和电网不稳定风险增加。

当出现零星缺失数据时，直接删除可能是有效的，因为剩余的足够数据仍可为下游任务提供可靠信息。然而，如果缺失不是完全随机的，这种方法可能会引入抽样偏差并扭曲时间统计特性。对于周期性间隙或块状缺失模式，这种方法也变得不可行[6]，因为下游分析会受到严重影响[6]。因此，辐照度估算作为一种关键预处理技术应运而生，旨在重建缺失点的同时保留真实的辐照度动态。

传统统计方法仍然被广泛使用，但其假设往往对现代光伏监测具有局限性。例如，Demirhan和Renwick[7]表明，线性和Stineman插值方法适用于短期至中期的太阳辐照度估算，而Kalman滤波在分钟级和小时级尺度上也表现良好。他们进一步报告称，加权移动平均适用于低频率模式，而快速变化的辐照度条件对这些方法更具挑战性。基于样条的方法可能提供更平滑的曲线，但在长间隙或峰值附近可能会引入振荡/超调，可能违反物理约束（例如非负性）。Mohamad等人[8]指出，简单插值的相对性能取决于天气类型，间歇性条件尤其具有挑战性。这意味着单一固定方法的鲁棒性有限，因为一旦变化模式改变，该方法可能失效。对于长期辐照度序列，Heinzl等人[9]报告称基于模型的统计估算器优于基于平均的方法，但这些方法仍然依赖于分布/平稳性假设，并可能在非平稳气候模式、季节性变化或系统传感器漂移下性能下降。

多变量统计方法利用辅助变量，但也存在实际缺点。Chained Equations（MICE）通过利用跨传感器信息来减少误差，但它通常假设缺失是随机的，并且条件模型在复杂的非线性辐照度-气象耦合下可能设定不当。此外，这种方法计算成本较高，且对共线性及所选估算模型敏感。Turrado等人[10]在十分钟时间尺度上证明了MICE相对于逆距离加权和多元线性回归的优势，但这种优势取决于相关辅助测量的可用性和质量，当相邻站点稀疏或相关性较弱时，性能可能无法推广。最近的机器学习方法也显示出潜力。Bacsakin等人[11]提出了一种混合XGBoost-DE方法，在不同间隙大小下提高了准确性，特别是当相邻站点的空间相关特征具有信息量时。然而，基于树的回归器需要仔细的特征工程，对分布变化（例如新气候、季节性变化或传感器重新校准）敏感，并且通常提供没有明确物理约束或不确定性量化的点估计。

最近在缺失观测数据下的太阳辐照度建模方面，深度学习的应用日益增多，可分为判别序列模型和生成模型。Girimurugan等人[12]开发了一种基于RNN的预测策略，其中嵌入了自适应神经估算机制和注意力机制，并在不同缺失比例下预测辐照度时优于五种常用估算方法（例如MICE、均值插值、矩阵分解或完成、Kalman滤波和KNN）。一个关键限制是评估主要基于单站点和时间驱动，且报告的优越性取决于他们选择的变量集和误差指标；此外，该方法没有明确考虑跨站点的空间依赖性或基于物理的可行性约束。相比之下，Hoyos-Gomez等人[13]专注于仅基于温度的经验估计，并比较了三种温度基公式，并补充了一种逻辑回归变体。虽然计算量小，但这种温度驱动的方法在表示快速云层变化方面存在固有限制，且不是为处理异构缺失模式而设计的通用估算器。基于Transformer的设计也被用于不完整辐照度数据。Zhang等人[14]引入了Mask-Transformer进行估算，并进一步提出了一个不完整数据预测流程；他们的估算组件与四种回归器（XGBoost、MARS、随机森林和线性方法）进行了基准测试，而他们的预测模块（ID-Informer）与六种序列预测器进行了比较。然而，缺失协议是人工构建的，具有固定的掩蔽规则，可能无法完全反映真实的传感器故障（例如结构化块间隙、季节性维护或非随机缺失），因此观察到的排名应在他们的实验设置范围内解释。Benavides-Cesar等人[15]提出了一个BERT风格的估算阶段，并评估了其对三种CNN类型辐照度预测器（ST_CNN_v1、ST_CNN_v2、ST_Dilated_CNN）的下游影响，以传统插值策略作为主要参考。他们的框架提高了对不完整输入的鲁棒性，但仍需要在不同气候条件和采样间隔下仔细重新训练和校准，并且没有明确强制执行物理约束或利用站点间的空间相关性。

在生成方面，Zhang等人[16]将SolarGAN改编为WGAN风格的框架，用于多变量太阳数据估算，并将其与六种基准估算器进行了评估。尽管在他们的设置下有效，但缺失数据是通过公共数据集的随机删除生成的，主要通过MSE进行评估，这可能高估了与实际操作场景的真实性，因为在实际操作场景中缺失过程是有结构的且真实值不可用。Shen等人[17]提出了一种时间多模态VAE，将天空图像与数值气象序列融合，并在保持视觉模态可用的情况下比较了六种代表性基线/变体。一个实际缺点是，这些改进依赖于多模态数据的同步可用性。在实际部署中，相机故障或错位可能与传感器间隙同时发生，降低跨模态重建的有效性。Mantuano等人[18]通过对不同缺失机制下的GHI、DNI和风速数据进行评估，提供了可再生能源时间序列估算的全面基准，进一步评估了其对下游能源系统建模的影响。他们的结果表明，方法性能强烈依赖于数据类型、缺失模式和评估标准，深度学习方法不一定优于简单基线。虽然这项研究提供了重要的基准视角，但仍有一些方面需要进一步探索，包括物理引导的生成、跨站点空间辐照度相关性的明确利用以及基于扩散的太阳辐照度估算。

值得注意的是，在处理缺失值问题时，这些研究在使用的数据集、缺失数据模式和评估方法方面有共同点。在光伏研究中，广泛使用的公共辐照度来源包括国家可再生能源实验室（NREL）数据集（例如国家太阳辐射数据库（NSRDB）及相关基准），但具有严格同步、多站点同质测量的多站点数据集仍然有限，这阻碍了公平的跨论文比较。此外，缺失可以根据其机制进行分类——完全随机缺失（MCAR）、随机缺失（MAR）和非随机缺失（MNAR）——实际上，研究通常使用点状掩蔽和连续块间隙来模拟缺失数据。最后，均方根误差（RMSE）和平均绝对误差（MAE）是常见的点级准确性度量，而概率度量（如连续排名概率分数CRPS）也被越来越多地用于评估考虑不确定性的估算。这些度量是互补的，通常在指示性能趋势方面是一致的，但度量选择的不同可能会影响报告的排名，因此跨研究的结论应谨慎解释。

尽管取得了这些进展，但在分布式光伏监测网络中应用估算时仍存在两个关键限制：(i) 对多站点测量中的时空异质性建模不足。许多现有方法将多站点辐照度流视为同质的多变量输入，而没有明确编码站点间相关性或区域异质性。然而，太阳辐照度是一个空间连续的物理场，而天气-站点观测只是该场的不完整样本[19]。因此，目标站点的辐照度不仅取决于其自身的时间演变，还取决于相邻站点的连贯辐射模式，特别是在移动云层条件下。因此，估算模型应纳入地理上一致的站点间依赖性（例如图结构交互），以避免空间上不连贯的重建。(ii) 物理不可知的泛化以及高阶气象指导的不足使用。大多数数据驱动的生成模型提供的嵌入太阳几何约束或基于物理的基线（例如晴空包络）的机制有限，可能导致物理上不可信的值[20]。此外，辐照度与易于获取的气象协变量（例如云层覆盖、温度、湿度）紧密相关，这促使了先前的多变量估算[21]。同时，Cao等人[22]和Du等人[23]表明，通用时间序列估算模型（例如双向循环估算（BRITS）、基于自注意力的时间序列估算（SAITS）在其他领域可以取得良好性能，但这些模型通常缺乏针对太阳的归纳偏差，也没有明确协调多站点辐照度与异质气象驱动因素。因此，在物理感知约束下同时利用站点间依赖性和气象的多站点辐照度估算仍然研究不足。Tashiro等人[24]引入了一种基于扩散/分数的缺失数据估算方法，通过条件去噪过程可以建模复杂后验并提供考虑不确定性的重建（例如CSDI）。除了通用条件扩散，Simethy等人[25]提出了STDiff，强调状态转换感知的扩散和窗口化条件，以更好地恢复工业传感器流中的长连续间隙。在更广泛的能源时间序列背景下，Lin等人[26]展示了扩散的可行性，并为高分辨率序列处理和分布校准提供了实用机制（例如边际校准），这些与高频光伏/气象信号相关。在其他领域，近年来也越来越多地探索了基于扩散和其他先进的时空估算方法。Zhang等人[27]提出了Score-CDM，一种用于多变量时间序列估算的扩散模型。Wang等人[28]和Li等人[29]研究了在不完整观测下的城市流估算和推断。这些研究为时空缺失数据建模提供了有用的灵感。然而，对于太阳辐照度估算，仍需进一步探索将特定于辐照度的物理特性纳入建模框架。此外，Chen等人[30]从梯度流的角度重新思考了缺失数据估算，认为简单的扩散采样可能会引入不必要的多样性，并提出正则化以提高缺失情况下的准确性。然而，在分布式光伏辐照网络背景下，当前的基于扩散的估算器在两个关键要求方面仍存在较大差距：(i) 它们通常是空间上非结构化的。

联系信箱：

粤ICP备09063491号

热点排行