中国北部湾海域十年海洋天气数据及标准化风能-太阳能发电量数据集:用于长期演变分析与容量选址规划 作者:李子牛(Ziniu Li)、郭欣(Xin Guo)、钱忠昊(Zhonghao Qian)、周爱华(Aihua Zhou)、彭琳(Lin Peng)和周素阳(Suyang Zhou)

《Data》:A Decadal Dataset of Offshore Weather and Normalized Wind–Solar Power Yield for Long-Term Evolution and Capacity Siting Planning in the Beibu Gulf, China Ziniu Li, Xin Guo, Zhonghao Qian, Aihua Zhou, Lin Peng and Suyang Zhou

【字体: 时间:2026年04月28日 来源:Data 2

编辑推荐:

  摘要:对于海上可再生能源规划和智能电力管理而言,获取长期、高分辨率且物理一致的气象和发电记录是至关重要的。此类数据支持多种任务,包括资源评估、混合系统容量确定、电网运行规划以及数据驱动的预测模型开发。本文介绍了为 China 北部湾的 16 个深海电网站点构建的 10 年连续每小

  摘要:对于海上可再生能源规划和智能电力管理而言,获取长期、高分辨率且物理一致的气象和发电记录是至关重要的。此类数据支持多种任务,包括资源评估、混合系统容量确定、电网运行规划以及数据驱动的预测模型开发。本文介绍了为 China 北部湾的 16 个深海电网站点构建的 10 年连续每小时数据集,时间跨度从 2016 年 1 月到 2025 年 12 月。原始气象变量(包括 10 米高度的风速、风向、太阳辐射和 2 米高度的空气温度)来自 NASA POWER 卫星数据库,并通过一种 24 小时周期性替换算法进行了清洗,以保持每日天气周期的物理完整性。该数据集分为两个子数据集:历史天气数据集和标准化发电量数据集,后者提供了基于风力涡轮机功率曲线模型和光伏热力学模型的标准化风能和太阳能发电量输出,单位为每单位(p.u.)。所有 32 个 CSV 文件均以 UTF-8 编码形式免费在线提供。通过两个代表性应用案例说明了该数据集的实用性,包括基于混合容量的海上站点选择和物理信息驱动的深度学习预测,证明了其适用于工程分析和机器学习模型开发。

数据集:https://github.com/Lee-ziniu/10-Year-Hourly-Offshore-Weather-and-Wind-Solar-Power-Dataset-for-the-Beibu-Gulf.git(访问日期:2026 年 4 月 1 日)
数据集许可:CC–BY Attribution 4.0 International

1. 引言
全球向低碳能源系统的转变推动了可再生能源技术(特别是风能和太阳能)的快速发展[1,2,3]。作为未来清洁能源系统的关键组成部分,这些资源在减少温室气体排放和应对气候变化方面发挥着重要作用。然而,它们的可变性和不可预测性给电力系统管理、电网稳定性和能源市场运营带来了严峻挑战[4,5,6]。
在所有可再生能源选项中,海上区域由于风力条件更强劲、更稳定,表面摩擦更小,以及天气比陆上站点更稳定,因此成为能源开发的高度吸引人的选择。这些特点使海上区域更适合大规模发电[7,8]。同时,海上太阳能光伏(PV)系统也引起了越来越多的关注,尤其是漂浮式光伏设施,因为它们可以利用海洋表面而不占用土地[9,10,11]。将风能和太阳能资源结合在混合系统中已被广泛认为是减少发电波动的实用方法,因为这两种能源在日变化和季节变化中天然匹配[1,12,14]。
尽管有这些优势,海上可再生能源研究的一个关键缺口是缺乏长期、详细且位置一致的数据集,这些数据集能够同时覆盖天气条件和相应的发电量。现有的全球数据集(如 ERA5)提供了有用的大规模天气信息,但通常受空间细节不足和特定位置误差的限制,尤其是在沿海和深海区域[15,16]。此外,大多数公开可用的数据集仅关注风能或太阳能资源,不包括混合能源系统的综合表示。特别是现有的海上数据集[17,18]主要强调风能资源,对海上太阳能光伏的关注有限。然而,随着漂浮式光伏技术的快速发展,海上太阳能变得越来越可行,不应再被忽视。这限制了它们在多能源系统建模、混合容量规划和长期发电量分析中的实用性[19,20]。简而言之,与基于再分析的产品(如 ERA5)或仅关注风能的海上数据集不同,当前的工作提供了一个开放访问的 10 年每小时编译数据集,同时提供了 16 个深海电网站点的原始气象变量和物理标准化的风能-太阳能发电量输出,使现有的替代方案无法充分支持混合规划和预测任务。
除了数据的可用性之外,将天气变量转换为发电量还增加了进一步的难度。虽然纯粹的数据驱动方法越来越普遍,但往往缺乏明确的物理意义,可能会超出能源设备的物理运行极限。另一方面,纯粹基于物理的模型需要详细的设置,可能无法很好地捕捉复杂的时间变化模式。因此,最近的研究集中在结合数据驱动和基于物理的方法上,利用了机器学习和深度学习的进步[16,21,22,23]。例如长短期记忆(LSTM)网络显示出在可再生能源数据中学习时间依赖性模式的强大能力,而基于树的集成方法(如梯度提升)则提供了强大的非线性建模性能。然而,这些方法的质量在很大程度上取决于能否访问具有足够时间覆盖范围、空间范围和物理准确性的高质量数据集。
为了解决这些差距,本文为 China 北部湾的 16 个深海电网站点提供了一个 10 年(2016–2025)连续每小时数据集。该数据集结合了基于卫星的天气数据和基于物理的功率转换模型,生成了原始天气记录和风能及太阳能发电的标准化发电量输出。使用每单位(p.u.)格式确保结果可以轻松地跨不同设备类型进行比较,并且可以扩展到任何安装容量。该数据集的一个重要特点是使用了逐步物理模型,包括风速高度校正、涡轮机功率曲线计算和光伏电池温度建模。这些步骤将所有发电量值保持在真实的物理运行范围内,直接将原始天气数据与实际工程应用联系起来。除了数据集本身外,还包括两个实际应用案例来展示其价值:一个涉及海上站点选择和混合容量确定,另一个展示了多时间尺度下的物理信息驱动深度学习预测。这些案例旨在说明数据集的使用方法,而不是对任何特定方法或设计结论的全面验证。
本工作的主要贡献可以总结如下:
- 开发了覆盖北部湾 16 个深海电网站点的 10 年连续每小时海上数据集;
- 在统一的数据框架中整合了气象变量和基于物理的标准化发电量输出;
- 实施了物理一致的建模方法,以确保发电量的真实性和有界性;
- 展示了数据集在混合系统规划和物理信息驱动深度学习预测中的适用性。

总体而言,该数据集为海上可再生能源研究提供了坚实且可扩展的基础,支持面向工程的分析和高级数据驱动建模。预计它将支持未来关于混合能源系统、可再生能源评估和智能预测的研究,从而为向可持续能源系统的过渡做出贡献。

2. 数据描述
该数据集提供了 China 北部湾 16 个深海电网站点的详细历史天气条件和可再生能源发电量数据集。数据的时间范围是从 2016 年 1 月 1 日到 2025 年 12 月 31 日的连续时间段。这 10 年的时间段有助于理解长期气候 variation 和海洋天气模式。该数据集保持了严格的每小时时间分辨率,而不是提供宽泛的日平均数据,因此为每个站点提供了精确的 87,672 小时观测数据。当将所有空间网格合并在一起时,整个数据集共有 1,402,752 行数据。
处理如此大量数据的一个常见挑战是许多标准软件程序难以轻松处理。例如,Microsoft Excel 有 100 万行的限制,打开这个包含 140 万行的数据库会导致软件崩溃。为了解决这个问题并确保所有用户都能方便地访问数据,这个庞大的数据集被结构上分解为两个独立的子数据集。所有信息都以 CSV 格式系统存档。使用 UTF-8 编码,以便文件可以在任何操作系统(如 Windows、macOS 或 Linux)上安全地处理。

2.1. 历史天气数据集
第一个子数据集完全关注天气条件。该文件夹名为历史天气数据集。此目录内包含 16 个独立的 CSV 文件,每个海洋网格站点一个文件,以保持空间数据的适当组织。每个文件的结构精确为 12 列。这 12 个天气和位置变量的详细说明如下:
- 站点(SITE):这是分配给每个位置的文本标识符,简单地编号为 S1 到 S16。通过使用这些简短的名称,用户可以轻松选择一个特定站点进行研究,而无需输入长坐标数字。
- 经度(LONG):这表示地图上站点的经度位置,以东经度数表示。经度对于了解电网距海岸线的确切距离是必要的。
- 纬度(LAT):这表示站点的纬度位置,以北纬度数表示。结合经度,可以帮助确定精确的深海位置。
- 年份(YEAR):此列显示天气数据的日历年份,数据从 2016 年初持续到 2025 年末。
- 季节(SE):此列将年份划分为四个天气季节。数字 1 代表春季(3 月至 5 月),数字 2 代表夏季(6 月至 8 月),数字 3 代表秋季(9 月至 11 月),数字 4 代表冬季(12 月至 2 月)。
- 月份(MO):这是年份中的月份,用数字 1(1 月)到 12(12 月)表示。
- 日(DY):这表示每月的具体日期。数据集包括了不同月份的正确天数,以及闰年的额外一天。
- 小时(HR):这表示数据记录的确切时间。我们使用标准的 24 小时 UTC 格式,数值从 0(午夜)开始,到 23(晚上 11:00)结束。
- 风速(WS10M):这是在海面上方 10 米高度测量的风速,单位为米每秒(m/s)。这是一个基本且非常重要的变量,因为它直接用于计算涡轮机可以产生的风能。
- 风向(WD10M):这表示风的来向,数值范围从 0° 到 360°。工程师在设计海上风电场布局时了解风向非常重要,有助于避免涡轮机相互阻挡造成的能量损失。
- 太阳辐射(SI):这表示到达海洋表面的直射阳光,单位为瓦特每平方米(W/m2)。这个变量提供了计算太阳能板发电量所需的基本能量输入。
- 环境温度(T2M):这是 2 米高度的空气温度,单位为摄氏度(°C)。这个温度至关重要,因为在极端炎热的环境中,太阳能板会因热量损失而效率降低,产生的电力减少。
为了清楚地了解这 12 个变量的结构,表 1 展示了一个实际数据样本。它显示了 2016 年 1 月 1 日从网格 S1 收集的凌晨三个小时的风暴数据。

2.2. 标准化发电量数据集
第二个子数据集将天气数据转换为实际的可再生能源发电量。这些文件存储在一个名为标准化发电量数据集的文件夹中。与天气数据一样,这个文件夹也包含 16 个 CSV 文件,对应于 16 个深海网格。这些文件具有与天气文件相同的时间和位置列,但它们用两个新的标准化发电量输出指标替换了天气变量:
- P_WIND:此列提供了计算出的风能发电量。它是根据在中国广泛使用的特定主流商用风力涡轮机的功率曲线得出的。物理模型包括该代表性涡轮机的具体技术限制,如其确切的启动、额定和停止速度。最终发电量值以每单位(p.u.)为基础标准化,范围从 0 到 1.0。
- P_PV:此列提供了计算出的太阳能光伏(PV)发电量。它是基于在中国太阳能电站广泛使用的典型主流太阳能板的热特性得出的。基于温度的模型计算了特定的发电效率,包括这些代表性面板在强烈阳光下过热时的确切功率损失。最大发电量以每单位(p.u.)为基础限制在 1.0。
需要注意的是,这些标准化的每单位(p.u.)记录与这些特定主流设备的性能曲线物理相关联。然而,由于这些代表性模型准确反映了当前的标准工程技术,因此数据集在宏观层面上的能源规划中非常可靠。用户只需将这些基础值乘以他们计划的安装容量(以 MW 为单位),就可以合理估计实际发电量,假设使用的是标准主流设备。表 2 展示了这个标准化数据的一个样本,显示了网格 S1 在中午 11:00 到 13:00 的记录。

3. 方法研究区域与空间网格选择
研究区域是位于中国南海西北部的北部湾。该地区具有巨大的海上可再生能源开发潜力。为了支持分析工作,我们建立了一个由16个深海位置组成的空间网格。这些网格位置被标记为S1至S16,并沿面向开阔海域的海上边界分布。如图1所示,这些位置的选择旨在代表典型的海上条件,并捕捉深水区域风能和太阳能资源的长期变化。

3.2. 原始天气数据采集与处理
为了构建天气数据集,我们从NASA的全球能源资源预测(POWER)数据库(https://power.larc.nasa.gov,访问日期为2026年3月25日)获取了原始气象数据。选择该平台是因为它提供了具有全球覆盖范围和长期时间一致性的可靠卫星衍生小时级天气数据。此外,它还允许直接访问结构化的基于点的时间序列数据,这使其特别适合于特定地点的海上资源评估。收集的关键变量包括10米风速、10米风向、太阳辐照度和2米气温,时间跨度为2016年至2025年。

在原始数据提取中一个常见的问题是,偶尔的卫星传输错误会导致缺失值,这些缺失值最初被记录为?999。在这个海洋数据集中,这样的缺失数据尤其具有挑战性,因为它们通常跨越多个连续的日子,而不是作为孤立的小时级间隙出现。使用线性插值等标准数学方法来填充这些多日间隙在物理上是不合适的。例如,在两天的间隙上进行插值可能会在夜间产生非零的太阳辐照度,从而扭曲了固有的日变化周期。为了解决这个问题并保持物理上的天气模式一致性,提出了一种24小时周期性替换算法。为了清晰性和可重复性,该方法的详细过程在算法1中呈现。

算法1 24小时周期性替换算法的参数和步骤:
1: 输入:包含缺失值(NaN)的小时级时间序列
2: 输出:修复后的时间序列

3.3. 风力发电物理模型
虽然天气数据集提供了环境条件,但计算电能输出需要特定的物理方程。对于风力发电,历史天气数据集中的实际风速值是主要输入。
由于风速是在10米的参考高度测量的,而风力涡轮机的轮毂位于更高的高度,因此需要进行高度校正。为此应用了标准的幂律风速剖面模型[24]:
(1)
其中表示到达轮毂高度时的校正后风速,是原始测量的风速。
接下来,根据代表性商用风力涡轮机的技术限制计算原始功率输出()。发电量会根据三个不同的运行风速区域(启动、额定和停止)动态调整[25]:
(2)
最后,为了使数据能够在不同风力涡轮机之间直接比较,将原始输出除以额定风容量()。这一步产生了单位值(p.u.)的标准化风能发电量:
(3)
表3总结了用于该代表性风力涡轮机模型的具体参数。

3.4. 光伏热力学模型
正如风模型将天气变量转换为机械能一样,太阳能发电量是使用从历史天气数据集中直接提取的太阳辐照度(G)、气温()和环境风速()来计算的。
在海洋环境中一个关键的环境因素是,海上太阳能阵列通常安装得非常靠近海面。因此,光伏面板高度()处的局部冷却风速与到达高大涡轮机轮毂的风速不同。为了准确处理这个问题,必须首先应用幂律校正来确定照射到太阳能板上的确切风速:
(4)
使用这个校正后的风速,确定太阳能光伏电池的实际物理温度()。这个特定的热力学模型评估了来自直射阳光的加热负荷以及从面板表面吹过的横向风的必要对流冷却效应[26]:
(5)
一旦确定了电池温度,就计算原始的太阳能输出()。这个方程的一个关键特点是其能够精确测量在强烈辐照下电池过热时自然发生的发电量损失[27]:
(6)
最后,为了与第2节中引入的标准化格式保持一致,将原始物理输出除以额定太阳能容量()。这种最终的转换产生了单位值(p.u.)的标准化太阳能产量:
(7)
表4详细列出了代表性商用太阳能光伏阵列所需的所有参数。

3.5. 代表性模型的假设、限制和敏感性分析
代表性的风力涡轮机(基于8.5兆瓦低风速模型,例如MySE 8.5-230)和光伏模型(基于标准晶体硅面板)依赖于几个关键假设。对于风力发电,功率曲线遵循一个简单的三区(启动、额定、停止)公式,不考虑偏航不对准、尾流效应或叶片磨损;空气密度固定在1.225千克/立方米;风切变指数取为0.12,代表开阔水域中的中性条件。对于光伏发电,基于NOCT的冷却系数来自陆上安装,可能不完全适用于浮式海上系统;温度系数假设为恒定;没有考虑污染、光谱不匹配和长期退化。
这些假设意味着这些模型并非普遍适用。在地理上,这些模型是根据北部湾的亚热带海洋气候进行校准的;将它们应用于其他地区(例如热带气旋地区或高纬度水域)可能会导致偏差。在技术上,涡轮机(8.5兆瓦,230米转子)和光伏面板(晶体硅)代表了截至2022年中国的主要设备;对于非常不同的设计(例如15兆瓦以上的涡轮机或薄膜光伏),用户应在保持天气数据不变的情况下替换核心功率曲线或温度损失方程。在时间上,10年期间(2016–2025年)捕捉了年际变化,但没有涵盖此时间窗口之外的长期气候趋势。
为了测量不确定参数的影响,使用来自代表性站点(S1)的每小时数据对一个完整年份(2020年)进行了逐一敏感性分析。如图2所示,将风切变指数从0.10变化到0.14会使变化大约p.u.;将额定风速从10.5米/秒变化到12.0米/秒会使变化?0.039到+0.047 p.u.;而启动和停止风速的影响较小(<±0.005 p.u.)。对于光伏模型,将NOCT从44°C变化到54°C或将温度系数从?0.0045变化到?0.0032°C?1会使变化小于p.u.,光伏面板的风切变指数的影响可以忽略不计(p.u.)。

4. 数据探索与评估
该数据集为分析海上海洋环境和可再生能源发电提供了基础。为了更好地理解数据并确认其质量,对16个深海网格进行了技术评估。
评估过程分为三个主要部分。首先,第4.1节分析了基本天气资源的整体分布,如风速和太阳辐照度。其次,第4.2节探讨了极端天气条件,强调了实际设备的限制和强制停机时间。最后,第4.3节检查了计算出的发电量,重点关注预期的能源产出和日变化曲线。以下详细介绍了这三个评估步骤的内容。

4.1. 海洋可再生资源的整体评估
本节通过评估天气变量的统计和时间分布来了解环境基线。为了确保运营精度,本节中的所有风速记录都使用标准幂律方程调整到了155米涡轮机轮毂高度。
最初,使用概率模型来识别16个深海网格的基本风特性。如图3所示,对每个站点的每小时风速数据应用了韦伯分布。分析显示,风速一致遵循常见的右偏分布曲线。这证实了整个北部湾阵列风数据的空间可靠性。

4.2. 极端天气条件
本节探讨了极端天气条件,强调了实际设备的限制和强制停机时间。最后,第4.3节检查了计算出的发电量,重点关注预期的能源产出和日波动曲线。这些评估步骤的详细内容如下。这些观察结果表明,在10年期间内,数据集中的年度平均值总体上是一致的,没有出现任何异常大的偏差。图4显示了2016-2025年间风能和太阳能资源的年际变化趋势:年度平均风速(a);年度平均太阳辐照度(b)。除了年度稳定性之外,还观察到了明显的季节性模式。图5突出了冬季强劲的海风和夏季强烈的太阳辐照度之间的对比(仅计算在白昼时段)。图5进一步展示了风能和太阳能资源的季节性分布:季节性风速分布(a);季节性太阳辐射分布(b)。

为了更详细地分析深海资源的月度和日度模式,图6提供了一个月-小时热图。该图表使用了所有16个站点的平均数据,显示了不同月份的24小时资源变化,清晰地表明了风速达到峰值和太阳能可用时的具体时间。这些基本评估共同证实了数据集能够准确记录海洋环境的复杂天气模式,使其成为未来电力建模的可靠基础。图6还展示了风能和太阳能资源的月度日变化热图:月度日风速(a);月度日太阳辐照度(b)。

观察到的空间模式可以归因于北部湾的地理特征。位于更远的海洋区域的站点S1-S3受到的陆地表面摩擦较小,海洋边界层更稳定,因此风速比近岸站点(如S4和S12)更高且更一致。对于太阳辐照度,所有16个站点的高度空间均匀性反映了研究区域相对较小的地理跨度(经度0.75°,纬度0.6°),在这个范围内云层覆盖和大气衰减的变化很小。图5中显示的季节性模式主要是由东亚季风系统驱动的:冬季盛行强劲的东北风,而夏季则有较弱的风,但太阳高度角更高,白昼时间更长,从而形成了风能和太阳能资源之间的自然季节性互补。

4.2 极端天气分析
本节通过连续10年的数据集来量化16个海洋网格中的极端天气条件。极端高风速和低风速事件的定义直接基于代表性风力涡轮机的运行限制。具体来说,低风速停机(平静期)定义为风速降至3米/秒的切入阈值以下的任何小时;极端高风速停机(台风锁定)则是在风速超过25米/秒的切断限制时发生,此时涡轮机的安全保护系统会停止发电。对于太阳能阵列,极端热条件通过PV热力学模型进行追踪,以识别电池温度超过50°C的危险阈值的情况。

表6总结了每个站点的最坏情况天气情景,包括绝对最大风速以及由台风和静止风导致的最长连续停机时间。该表还报告了太阳能电池承受的最高峰值温度,以及10年期间记录的最高瞬时效率损失。

4.3 基于模型的发电量和输出波动
本节应用第3节中的风能和太阳能物理模型来计算所有16个站点的标准化发电量。所有结果都以每单位1.0(p.u.)为基础,相对于每种设备的额定容量。为了说明典型的日发电行为,将整个10年期间的每小时标准化输出进行了平均。图7展示了所有16个站点的日变化曲线:风力发电曲线(a);太阳能光伏曲线(b)。灰色线条表示各个站点的曲线,突出显示了最佳站点、最差站点和平均最佳站点。对于风力发电,观察到了明显的日变化模式:发电量在早上8点左右达到峰值,然后在下午16点至18点之间降至低谷,夜间部分恢复。表现最佳的站点(网格1,约0.45 p.u.)与表现最差的站点(网格4,约0.25 p.u.)之间存在显著的空间差异,表明该地区风能资源的显著空间变异性。这种空间变异性主要是由于离岸距离的不同造成的。位于更远的海洋区域的网格1由于风程更长,风速比靠近雷州半岛的网格4更高,因为陆地摩擦减少了风速。日风模式(早晨峰值,下午低谷)反映了典型的陆海热循环:白天的陆地加热产生了陆上风,这些风在一定程度上被海岸地形阻挡,而夜间冷却则促进了更稳定的海上气流。

对于太阳能光伏,夜间发电量为零,从日出开始逐渐增加,在太阳正午附近达到一个峰值,日落后回到零。与风力发电不同,所有16个站点的太阳能曲线几乎相同,这是因为研究区域的小地理跨度(经度大约0.75°,纬度大约0.6°)导致云层覆盖和大气衰减的变化很小。

总体而言,风能和太阳能的发电曲线显示出自然的时间互补关系:风能在夜间和清晨提供能量,而太阳能在中午时段占主导地位。这种逆向的日变化模式,加上图5中显示的季节性互补性(冬季强风与夏季丰富的太阳能),表明该地区混合风能-太阳能开发的潜力很大,因为这两种资源在日常和季节性周期中自然相互平衡。

5. 用户说明和高级应用
两个子数据集中的所有数据文件均以CSV格式存储,并采用UTF-8编码,适合导入几乎任何数据处理软件。历史天气数据集包含16个单独的CSV文件,标准化发电量数据集包含另外16个CSV文件,每个文件对应一个特定的深海网格站点。完整的数据集可以在无需登录的情况下免费访问:https://github.com/Lee-ziniu/10-Year-Hourly-Offshore-Weather-and-Wind-Solar-Power-Dataset-for-the-Beibu-Gulf.git(2026年4月1日访问)。可以使用这个数据集实现各种分析模型和工程框架。下面展示了两个代表性的应用案例,涵盖了海上阵列选址和容量设计以及基于物理的深度学习预测。

5.1 阵列选址和容量设计示例
本例展示了如何使用标准化发电量数据集来指导海上混合风能-太阳能发电厂的空间选址和容量配置。在选址过程中,为每个海洋网格构建了一个综合站点质量指数(SQI)。该指数赋予标准化年度等效满负荷小时数(EFLH)70%的权重,以及标准化发电稳定性30%的权重,后者通过变异系数(CV)的倒数来衡量。如图8所示,使用这个指数对所有站点进行排名后,站点S1、S2和S3获得了最高的风力SQI分数(1.0),因此被选为风力发电场的部署地点。对于太阳能光伏,站点S8、S12和S16获得了最高的太阳能SQI分数(0.9618),被选为太阳能阵列的部署地点。S1-S3被选为风力发电的地点是因为它们的离岸位置更远,风程较长,陆地干扰较小,如第4.3节所讨论的。对于太阳能阵列,S8、S12和S16之所以获得高分,并不是因为它们具有更高的辐照度(所有站点的辐照度几乎相同),而是因为它们具有更好的冷却条件,包括较低的环境温度和更高的2米风速,这些条件提高了转换效率。这表明即使风速有小的空间变化,也会通过冷却效应影响光伏性能,这是仅考虑辐照度时会忽略的。

在容量确定方面,选择了三个风力站点和三个太阳能站点的平均标准化输出作为代表性发电曲线。然后在整个风能对太阳能安装容量比范围(0-100%)内进行系统扫描,以1%的增量进行计算。在每个比例下,计算组合混合输出的CV。产生最低CV的比例,即整体发电量最平稳的比例,被确定为最优配置。经验证,这种最佳的风能对太阳能比例为大约49%:51%。

为了在极端实际条件下验证这种配置,使用从数据集中自动提取的历史数据窗口进行了三次独立的120小时(5天)压力测试。如图9所示,这三种情况涵盖了正常天气交替、极端风速干旱伴随强烈高温,以及多云阴暗伴有湍流风暴的情况。在所有三种情况下,优化的49:51配置始终比纯风能阵列、纯太阳能阵列或简单的50:50分割实现了更低的输出波动(CV)。特别是在极端风速干旱情况下(情景B),纯风能阵列的平均输出几乎降为零(0.0051 p.u.),而优化的混合配置保持了平均输出为0.1163 p.u.,峰值与谷值之间的范围显著减小。

5.2 深度学习和基于物理的预测
本例展示了数据集与基于物理的深度学习模型在长期趋势预测和短期运营预测方面的兼容性。对于宏观尺度分析,训练了一个长短期记忆(LSTM)网络来预测优化后的49:51配置的月度平均标准化混合发电量(p.u.)。LSTM是一种循环神经网络,旨在捕捉序列数据中的长期依赖性。每个月份的输入包括三个特征:前一个月的发电量和一对正弦-余弦编码,代表月份,这使得模型可以直接识别季节性周期。数据集被分为8年的训练期(2016年1月-2023年11月)和2年的独立测试期(2023年11月-2025年12月),随后对2026年进行了12个月的预测。为了防止模型在训练-测试边界处丢失季节性记忆,应用了一种状态启动机制,即在完整训练过程中累积的隐藏状态直接延续到测试阶段而不会被重置。如图10所示,这使得模型能够在边界处连续跟踪季节性发电周期,而没有任何明显的不连续性,准确再现了2年盲测期的峰值和低谷。定量上,重建的混合发电量在72小时测试期间的均方根误差(RMSE)为0.018 p.u.,决定系数(R2)为0.94,证实了数据集支持的预测能力。

对于微观尺度分析,训练了第二个LSTM网络来同时预测三个每小时的气象变量(风速、太阳辐照度和空气温度),使用数据集中的最后1440小时(大约60天)的数据。与直接预测发电量不同,该模型在每个时间步骤使用8维输入:前一小时的气象值、捕捉日周期性的相应24小时滞后值,以及表示当前小时的正弦-余弦编码。这种日相位编码使网络能够明确意识到白昼时间,从而确保预测的太阳辐照度在夜间正确归零。最终72小时(2025年12月29日至31日)被用作测试集。预测完成后,这三个预测的气象变量会通过第3节中描述的完整物理模型链进行处理,包括高度校正、光伏电池温度计算、风力涡轮机功率曲线以及优化的49:51容量比,从而重建最终的混合动力输出。如图11所示,预测的气象剖面与实际测量值非常吻合,在整个72小时的测试窗口内,受物理约束的功率输出始终保持在正确的运行范围内。图11显示了2025年12月29日至31日72小时内的微观尺度气象预报和物理约束功率输出重建情况:(a)每小时风速和太阳辐射跟踪;(b)基于物理数据的混合动力输出重建结果与实际物理数据之间的对比。这两组数据共同表明,该数据集中10年的连续每小时记录为序列深度学习模型提供了足够的时间深度,而标准化的物理输出确保了所有重建的功率预测都符合实际的工程约束。

6. 结论
该数据集的价值不仅限于其直接的工程应用。它填补了现有文献中的一个空白,提供了长期、高分辨率且空间分布广泛的海上天气和发电记录,而这些记录在现有的开放访问数据库中很少见。北部湾16个深海站点的10年连续每小时记录在细节和时间深度上超过了南海地区类似公共数据集的水平。这些结构化数据为研究人员提供了广泛的研究机会,使他们能够研究海上气候变化、评估物理发电模型,并开发数据驱动的预测方法。本文介绍的两个应用案例表明,该数据集可以有效地应用于工程优化流程和现代深度学习模型,说明其数据结构良好,非常适合模型训练和测试任务。所有功率输出均被标准化为1.0 p.u.(倾角单位),结合开放的CSV格式和UTF-8编码,确保了该数据集能够被从能源规划师、电力系统工程师到机器学习研究人员等不同领域的用户所使用。通过免费提供这一数据集,本研究旨在为推进海上可再生能源研究提供一个可靠且实用的基础,支持在不同海洋环境下的研究,并促进混合风能-太阳能系统的规划和智能能源预测的发展。

除数据集描述之外,我们的评估还揭示了若干分析见解:风能资源的空间变异性(CV约为15%)显著高于太阳能资源(CV小于2%),这表明选择风电场的位置比选择光伏阵列的位置更为关键。观察到的冬季风力与夏季太阳能之间的季节互补性表明,混合系统可能减少储能需求,但具体减少程度取决于具体的系统配置和运营策略。敏感性分析显示,风力发电估计的不确定性约为±10.8%(主要来源于风速和太阳辐射的不确定性),而光伏发电的不确定性仅为±1.0%。因此,建议将此数据集应用于其他地区的用户使用当地测量数据进行校准;而光伏模型在没有特定地点校准的情况下也可以较为可靠地使用。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号