用于预测风力涡轮机结冰情况的机器学习和深度学习模型：冰传感器与天气预报的影响

《Cold Regions Science and Technology》：Machine- and deep-learning models for wind turbine icing prediction across multiple horizons: the influence of ice sensors and weather forecasts

【字体：大中小】 时间：2026年04月27日 来源：Cold Regions Science and Technology 3.8

编辑推荐：

　　A. Kallarappayi | J.D. Nixon | A. Bégin-Drolet | C. Godreau 考文垂大学，Priory St，考文垂 CV1 5FB，英国 **摘要** 大约四分之一的陆上风力涡轮机运行在寒冷气候区域——这一数量是全球海上风

　　A. Kallarappayi | J.D. Nixon | A. Bégin-Drolet | C. Godreau
考文垂大学，Priory St，考文垂 CV1 5FB，英国

**摘要**
大约四分之一的陆上风力涡轮机运行在寒冷气候区域——这一数量是全球海上风电装机容量的三倍以上——在这些地区，由于冰层积聚，年能源产量会显著下降。尽管人们对利用机器学习预测涡轮机结冰现象的兴趣日益增长，但以往的研究大多局限于SCADA数据和短期预测，对于运营决策的辅助作用有限。本文探讨了新型冰层传感器测量的数据以及液态水含量（LWC）预测结果，结合人工智能模型设计，如何扩展当前在风力涡轮机结冰预测方面的能力。通过分析2023年12月至2024年4月一个冬季期间，来自一台寒冷气候区域风力涡轮机的高分辨率数据（包括SCADA数据、现场气象数据、冰层测量结果和天气预报变量），对五种模型进行了基准测试：三种集成学习器（随机森林、XGBoost、LightGBM）和两种深度学习架构（CNN-LSTM、GRU），在三种预测时间范围（1小时、6小时、24小时）以及四种不同的输入丰富度配置下进行了对比。研究结果表明：在预测性能方面，物理上有意义的输入数据比模型的复杂程度更为关键。在1小时预测范围内，加入冰层指示器和LWC数据后，平均F1分数从0.76提升至0.83，显示了直接利用微物理信息的好处；在6小时和24小时预测范围内，加入基于预测的输入数据后，平均F1分数分别从0.46提升至0.70和0.64。当有丰富的物理输入数据时，轻量级的集成模型能够达到与深度学习模型相当的预测精度，这支持了在涡轮机层面直接部署边缘人工智能设备。这些发现表明，新兴的冰层传感器和预测数据提升了基于人工智能的结冰预测能力，为通过早期干预实现短周期结冰防护系统（IPS）控制以及更精确地预测寒冷气候条件下的生产损失提供了新的机会。

**1. 引言**
全球约有四分之一的陆上风力涡轮机运行在寒冷气候条件下，这类涡轮机的装机容量约为300吉瓦——是海上风电装机容量的三倍以上（Karlsson, 2026）。在寒冷气候中，风力涡轮机叶片上的冰层积聚不仅仅是一个季节性问题，而是严重的运营挑战。冰层会增加空气动力学效率，增加机械磨损，甚至可能导致涡轮机完全停机。这些效应可能导致年能源产量损失10-20%，在某些情况下损失甚至超过24%（Parent和Ilinca, 2011; Battisti, 2015; Dai等人, 2024b）。北欧的试验场所显示，由于结冰，涡轮机每年会有超过200小时的产量损失（Kreutz等人, 2019; Parent和Ilinca, 2011）。这种不确定性也会带来经济后果：根据市场结构的不同，运营商可能无法按承诺提供电力，面临不平衡成本或在电价高企时期需要购买替代电力的情况（Norconsult, 2024）。结冰还带来安全隐患：脱落的冰块可能成为危险，根据安全规定需要停机（Afzal和Virk, 2018; Kreutz等人, 2019）。为了解决结冰问题，风电运营商通常依赖防冰或除冰策略来清除冰层并避免停机，目前大多数风力涡轮机制造商都提供了结冰防护系统（IPS）（Stoyanov等人, 2021; Stoyanov和Nixon, 2019）。防冰系统试图在冰层形成前阻止其生成，通常通过加热叶片表面或涂抹特殊涂层来防止结冰。然而，主动加热系统（如电热或热风系统）通常在输出功率降至预设阈值以下时才启动（Godreau, 2020; Ischtschuk等人, 2019; Qu等人, 2020），这意味着冰层是在形成后才被清除的（即属于除冰而非防冰）。这类系统通常要求涡轮机减速或停止运转，以便施加热量来分解或融化冰层（Parent和Ilinca, 2011; Dierer等人, 2011）。为了避免不必要的停机和电力损失，运营商需要能够更准确地预测冰层积聚情况，从而更有效地激活和控制IPS系统（Godreau, 2020; IEA Wind TCP Task 19, 2017）。虽然短期预测（1-6小时）可以提高IPS系统的控制效果，从而提升电网可靠性和收益（Guo和Infield, 2021; Wang和Zhao, 2022），但日前预测（24小时）同样重要，因为运营商必须提前向电力市场做出承诺，错误的预测可能导致罚款和平衡成本（Strauss等人, 2020; Kreutz等人, 2021）。

本研究考虑了三种不同的冰层预测时间范围，分别对应不同的运营决策场景：1小时时间范围适用于近期的涡轮机控制操作，例如在冰层积聚即将发生时触发防冰或除冰系统；6小时时间范围与短期运营规划相符合，运营商需要平衡涡轮机的可用性、预期天气变化和干预成本；24小时时间范围涉及日前市场和维护规划，决策需要在高不确定性下作出，主要基于預期的大气条件而非当前的涡轮机状态。预测方法大致分为两类：基于物理的模型利用热力学和液滴物理学原理模拟冰层积聚，但需要详细的气象数据，并且对天气预报的准确性要求较高（Molinder等人, 2018; Scher和Molinder, 2019）；数据驱动的模型则从历史SCADA数据、气象数据和冰层数据中学习模式来预测冰层积聚事件（Ge等人, 2017; Xie等人, 2021; Chang等人, 2023）。虽然基于物理的模型提供了有价值的物理洞察，但其性能很大程度上取决于数据质量。因此，数据驱动的预测方法越来越受到重视，模型的成功既依赖于输入数据的丰富程度，也依赖于算法的学习能力。

为了建立可靠的数据驱动预测，运营商需要的不仅仅是SCADA数据。SCADA数据可以提供关于涡轮机行为的宝贵信息，但其预测能力有限。对于超过几小时的预测，数值天气预测数据变得必不可少（Strauss等人, 2020; Kreutz等人, 2023）。然而，一些关键变量（如液态水含量LWC，它是冰层形成的主要因素）直到最近才在一些天气预报模型中得到体现（Thompson和Eidhammer, 2014; Benjamin等人, 2016; Bernier等人, 2020）。LWC实质上反映了冰层生长的“燃料”量，但在现场进行连续测量非常罕见。因此，许多模型仍然主要依赖于SCADA数据和基本气象输入（Wang等人, 2021; Kreutz等人, 2023），迄今为止的大多数机器学习研究都集中在短期冰层预测上，对可靠的日前预测模型的关注有限（Roberge等人, 2023; Dai等人, 2024）。新开发的专用传感器（如Icetek的IC-1，Roberge等人, 2022）现在可以提供LWC和冰层开始时间等有用信息，为预测建模提供更丰富的数据。

**1.1. 研究目标**
本研究探讨了输入信息的丰富性和模型架构如何共同影响不同运营相关时间范围内的风力涡轮机结冰预测。具体目标如下：
1.1.1. 输入来源的时效价值
量化不同输入类型（即SCADA数据和现场气象数据、冰层传感器测量结果以及预报得出的大气变量）在短期（1小时）、中期（6小时）和日前（24小时）预测时间范围内的预测贡献差异。通过使用F1分数、平衡准确率和PR-AUC对逐步丰富的输入配置进行对照比较来评估这一目标。
1.1.2. 输入与模型复杂性
通过在所有时间范围内将轻量级集成模型（随机森林、XGBoost、LightGBM）与循环深度学习架构（CNN-LSTM、GRU）进行基准测试，评估通过增加输入信息所需的性能提升是否超过提高模型复杂性所带来的提升。
1.1.3. 预测能力的时效驱动因素
识别随预测提前时间变化的主要结冰风险预测因子，区分短期微物理指标（如冰层传感器和液态水含量）和长期预报得出的大气驱动因素，使用特定于模型的特征归属分析方法。

这些目标为确定每个预测时间范围内最具信息量的输入来源以及模型复杂性对预测性能的影响程度提供了结构化的框架，对寒冷气候条件下的风电场运营具有直接应用价值。

**1.2. 贡献**
本研究提出了两项主要贡献：
**C1. 方法论贡献：多时间范围基准测试**
开发了一个统一的、安全的基准测试框架，用于在多个预测时间范围内比较机器学习和深度学习模型。该框架结合了块状时间序列交叉验证、预测输入的严格时间对齐、仅用于训练的预处理以及一致的阈值选择，使模型类别在现实运营约束下能够进行公平且可重复的比较。
**C2. 经验贡献：物理信息输入的增量价值**
通过系统的输入丰富化处理，研究量化了冰层传感器和预报得出微物理变量对结冰预测能力的边际贡献。结果表明，微物理测量结果主要提升了短期预测的准确性，而预报得出的大气输入在中期和日前预测时间范围内变得越来越重要。当这些输入可用时，轻量级集成模型的预测性能可与循环深度学习架构相媲美，这突显了在所研究范围内输入信息量相对于模型复杂性的核心作用。

**2. 文献综述**
风力涡轮机结冰预测的研究沿着三条主要路径发展：基于物理的建模、传统机器学习（ML）和深度学习（DL）。每种方法从不同角度探讨了相同的基本挑战：基于物理的方法模拟冰层形成过程，ML技术检测运营数据中的模式，而DL方法试图捕捉这些模式中的复杂时间关系。尽管取得了进展，但很少有研究能够在实际条件下跨季节或在不同地点展示可靠的涡轮机级预测性能。早期的研究主要依赖于物理理论，例如Messinger的平衡方法和Makkonen的积聚理论（Messinger, 1953; Makkonen, 2000），这些理论确定了液态水含量（LWC）、滴粒大小和热传输等变量对冰层形成的作用。后续研究进一步细化了这些理论，区分了不同类型的冰层并纳入了能量平衡方程（Finstad等人, 1988; Jones, 1990）。虽然这些模型提供了对冰层形成机制的深入理解，但它们依赖的微物理输入在运营风电场中难以获取，且可能受天气变化的影响（Molinder等人, 2018; Strauss等人, 2020）。即使是简化的模型，在实验室中虽然可重复，但也难以校准且计算成本较高。这些模型能够较好地解释冰层形成的原因，但在实际应用中难以预测冰层发生的时机和程度。

随着风电场数据可用性的提高，研究重点转向了直接从SCADA和天气数据中学习的ML技术。早期方法使用逻辑回归、支持向量机和随机森林等技术根据涡轮机功率、风速和温度来预测结冰（Skrimpas等人, 2019; Zhou等人, 2018）。后来的集成模型提高了预测的稳健性（Tao等人, 2021; Ding等人, 2021），尽管许多模型仍依赖于代理标签（如功率曲线的偏差），这些标签也可能反映其他因素（如降额或偏航误差）（Lee等人, 2020; Ye和Ezzat, 2024）。以预测为导向的研究表明，结合数值天气预测数据可以增强早期预警，捕捉与冰层形成相关的更大规模天气模式（Molinder等人, 2018; Strauss等人, 2020）。现场调查强调了液态水含量在冰层积聚中的物理重要性，并证明直接测量LWC可以为预测提供有价值的微物理信息（Roberge等人, 2021, Roberge等人, 2023）。深度学习算法在预测风力涡轮机叶片上的冰层形成方面表现更强大，尤其是LSTM网络和CNN-LSTM混合模型在短期预测方面的表现优于传统ML方法，尤其是通过模拟SCADA信号的时间行为（Guo和Infield, 2021; Wang和Zhao, 2022; Chang等人, 2023）。时间卷积网络（TCNs）进一步扩展了预测范围，仅使用SCADA数据就展示了可靠的多小时性能（Zhang等人，2024年）。同时，基于注意力机制的网络正在被探索用于结冰诊断（J. Guo等人，2024年）。然而，深度学习（DL）模型存在权衡：它们需要大量标记良好的数据集，需要大量的计算资源，并且通常表现为难以解释的“黑箱”。此外，相对较少的研究测试了这些模型在条件随时间变化或在不同地点时的表现。近年来，混合模型和基于物理的模型开始出现，将物理定律整合到学习架构中。Ye和Ezzat提出的TIGER模型（Ye和Ezzat，2024年）就是一个例子，它使用了一个能够将预测与实际功率损失对齐的物理感知损失函数。其他研究将热力学和液滴流方程嵌入到神经网络结构中（Tao等人，2023年；Jiang等人，2023年）。这些设计旨在平衡适应性和可解释性，尽管它们主要是在小规模或单季节数据集上进行的测试，与基线模型的比较仍然有限。现场测量在将预测模型与现实联系起来方面继续发挥着重要作用。多年的观测证实，液态水含量（LWC）和液滴大小是影响结冰速度和程度的关键因素（Makkonen，2000年；Finstad等人，1988年；Jones，1990年；Parent和Ilinca，2011年）。现场研究表明，LWC的变异性可以解释许多结冰事件之间的差异，而传感器的放置和校准会显著影响可靠性（Roberge等人，2021年；Roberge等人，2023年）。当与涡轮机性能进行交叉验证时，安装在机舱上的冰警报通常与基于功率曲线的结冰信号非常吻合（Roberge等人，2023年）。因此，结合冰传感器输入、SCADA数据和天气预报被视为改进结冰形成预测的一种有前景的方法。

几项综述指出了基于AI的结冰预测仍面临的挑战。Cai等人（2023年）指出了常见的问题，如标签噪声、数据集不平衡和泛化能力差。Dai等人（2024a年）也表达了这些担忧，指出许多机器学习和深度学习模型仅在特定条件下表现良好，应用于新地点时往往失败。这两项综述都强调，尽管算法开发迅速进步，但数据质量和表示方面的改进滞后。在许多情况下，输入的选择更多是基于便利性而非战略。总之，基于物理的模型提供了清晰性，但需要更多测试；机器学习模型效率较高但往往反应滞后，而深度学习模型虽然强大但复杂且资源消耗大。总的来说，数据覆盖范围、输入选择和验证方法的差异使得研究之间的直接比较变得困难。文献中报告的F1分数通常在0.6到0.85之间，这取决于输入的丰富程度和数据集的时间跨度（Guo和Infield，2021年；Y. Wang和Zhao，2022年；Chang等人，2023年；Dai等人，2024b年）。然而，许多这些模型在训练环境之外的适应性较差（Cai等人，2023年）。

本研究使用单一站点的基准测试，来隔离输入与模型复杂性在1小时、6小时和24小时预测范围中的作用。通过聚焦于受控环境下的确定性预测，该研究提供了一个清晰的测试，以验证丰富的输入是否能使轻量级的机器学习达到与深度学习相当的准确性，同时也明确了影响部署的操作性权衡。

3. 方法论
本节介绍了本研究采用的数据准备、输入配置、预测模型、模型训练和评估协议。为了确保不同模型类别和时间范围内的公平比较，所有流程都遵循相同的泄漏安全处理规则：不进行前瞻性处理，严格按时间顺序分割数据，仅对训练数据进行标准化，并根据验证数据调整每个模型时间范围的单一操作阈值。图1提供了建模框架和输入变体的概念性概述，而图2详细说明了用于实现该框架的泄漏安全预处理、预测对齐和评估流程。

图1. 总体方法论：针对1小时、6小时和24小时的预测时间范围，涵盖了输入获取、泄漏安全预处理、输入变量（A-D）、模型类别（机器学习和深度学习）以及评估。
图2. 泄漏安全预测和评估流程。图2总结了本研究中使用的完整泄漏安全预测流程，包括因果缺失数据处理、有效时间预测对齐、带有清除间隔的阻塞时间序列交叉验证以及训练、校准和阈值选择的顺序。所有预处理操作（包括特征过滤和缩放）仅在训练数据上执行并向前应用，而概率校准和操作阈值选择仅在最终测试前的验证数据上进行。输入数据被对齐到一个连续的1分钟时间线，并进行因果缺失数据处理和有效时间预测匹配。带有清除间隔的阻塞时间序列交叉验证将训练数据、验证数据和测试数据分开。特征过滤和缩放仅在训练数据上进行，校准和阈值选择在验证数据上进行，最终指标则在保留的测试集上计算。

3.1. 数据准备
分析了一个位于北美的寒冷气候地区的风力涡轮机在一个冬季季节（2023年12月至2024年4月）的分钟级数据。这些数据来自一个在北美洲寒冷气候区域运行的公用事业规模风力涡轮机。该站点在研究的12月至4月期间经历了持续的低温度和反复的结冰条件。根据与站点运营者的商业保密协议，无法透露精确的地理坐标、详细的地形图和预测网格配置。多变量数据集包括：（i）SCADA变量（例如功率、转子速度、俯仰角）；（ii）现场气象测量数据（例如温度、湿度、压力、风速、降水量）；（iii）与结冰相关的输入数据（二进制结冰标签、LWC、严重程度、厚度——由Icetek IC-1传感器提供）；以及（iv）与预测时间范围相匹配的ECCC数值天气预报（NWP）系统提供的预测变量（例如温度、相对湿度、风速和LWC）。只有当预测时间有效的预测数据才会被合并，使用严格的前向时间对齐来防止访问未来信息。预测的气象数据由站点运营者提供，这些数据来源于为运营风力发电场配置的加拿大环境与气候变化部（ECCC）数值天气预报框架。除了标准的近地面大气变量（例如空气温度、湿度、风速和方向以及降水量）外，预测数据还包括液态水含量（LWC）作为与结冰相关的诊断变量（https://eccc-msc.github.io/open-data/）。这些预测变量仅作为大气输入特征用于结冰预测，并不旨在表示或验证叶片级别的结冰或积冰物理过程。任务被定义为二元序列分类。使用60分钟的历史窗口来预测1小时、6小时和24小时后的结冰情况。所有数据流都被重新索引到一个连续的1分钟网格上。根据制造商的指导，物理上不可能的值被截断（例如温度?40至50°C，相对湿度0–100%，功率输出小于0），而结冰变量保持不变以保留高频的积冰信号。

缺失值通过严格的因果程序处理。SCADA变量被前向填充（ffill）最多30分钟，以考虑常规的短期通信延迟和监督控制信号（如转子速度、叶片俯仰角和涡轮机温度）的高持久性，这些信号通常相对于结冰开始的变化较慢。气象变量使用前向线性插值在不超过15分钟的间隔内进行插值，确保每个预测时间仅使用过去的观测数据，且没有未来信息被用于特征构建。15分钟的限制是一个保守的阈值，以最小化引入人为持久性的风险，更长的间隔被排除而不是插值，以避免将虚假的自相关性传播到输入特征中。超过15分钟的间隔不被插值；相反，受影响的样本通过完整性掩码被排除。为了保留快速的结冰积累和持久性动态，与结冰相关的变量从未被推断。完整性掩码确保只有在前60分钟内具有连续SCADA和气象覆盖的窗口被用作模型输入，防止在冰点附近的关键转变被人为平滑。数据预处理根据模型类型的不同而有所不同，并采取了措施来解决类别不平衡问题。对于深度学习架构，所有数值通道都使用仅从训练部分计算的z分数进行标准化，以避免信息泄露。基于树的模型应用于未经缩放的输入，因为这些算法通常对特征幅度不敏感，并且能够有效处理原始值。在研究期间，大约15%的分钟级观测值对应于结冰条件，表明类别之间存在中等程度的不平衡。这通过在损失函数中使用类权重缩放和在验证期间优化操作阈值来缓解。为了更真实地反映运行条件并提高指标稳定性，在评估期间应用了事件级分组，以便模型能够检测到整个结冰事件而不是孤立的时间戳。

3.2. 输入配置
定义了四种输入配置，以评估数据丰富度对预测性能的影响。表1总结了四种输入变量，旨在隔离运行监控、结冰检测和预测增强信息的各自贡献。变量A仅使用SCADA和现场气象数据，作为运营基线。变量B增加了结冰传感器变量（IC-1结冰检测标志、液态水含量、严重程度和厚度），从而能够研究直接观察结冰情况是否能够改进超出运营信号所能推断的短期检测能力。

表1. 四种输入配置的概述。
| 变量 | 包含的变量 |
|------------------|-----------------------------------------------------------|
| A | 涡轮机运行数据（功率输出、转子速度、叶片俯仰角、空气密度）和现场气象（空气温度、相对湿度、气压、风速和方向、降水量、太阳辐射） |
| B | 变量A加上结冰传感器测量数据，包括二进制结冰状态、结冰厚度、结冰严重程度和测量的液态水含量（LWC） |
| C | 变量A加上与ECCC数值天气预报系统匹配的预测气象数据，包括预测温度、相对湿度、风速和方向、压力、降水量、辐射、云量和预测液态水含量（LWC） |
| D | 变量B加上与ECCC气象预报匹配的预测数据，包括预测温度、相对湿度、风速和方向、压力、降水量、辐射、云量和预测液态水含量（LWC） |

变量C结合了SCADA和气象数据，并以泄漏安全的方式进行时间对齐。这反映了运营商能够访问气象预报的情况，并允许评估提前预测从预测未来大气状态中获得的好处。变量D结合了基于传感器的和基于预测的增强信息，代表了一种完全基于信息的设置，结合了即时的结冰指标和预测的天气演变。逐步组织输入变量允许研究确定性能提升是由于信息内容的增强还是由于预测架构本身。每种变量定义了一组物理上具有意义的确定性变量，独立于任何特定于模型的特征工程。配置设计反映了现实的实施路径，从标准的基于SCADA的监控开始，扩展到预测辅助的运营决策。预测预测因子使用有效时间对齐规则进行合并，以便对于每个观测时间戳t和预测时间范围H，预测变量对应于时间t + H的有效大气条件。在随后的模型特定预处理过程中，通过基于相关性的过滤控制预测因子之间的冗余，每个交叉验证折叠中都进行了控制。最终变量集分别存储，以确保每种配置和预测时间范围的可重复性。为了限制高度共线预测因子之间的冗余，在每个交叉验证折叠中使用训练数据进行了基于相关性的特征过滤作为二次预处理步骤。计算了成对的皮尔逊相关系数，当两个特征之间的绝对相关性超过0.9时，从训练集上测量出的与目标变量关联较低的特征被移除。在所有模型运行中，每种配置和时间范围内最多移除了两个到六个特征，一致地从风速和大气压力群中移除；任何配置中都没有移除IC-1传感器通道。然后将得到的特征集原封不动地应用于相应的验证和测试数据，确保特征选择不会引入时间泄漏。

3.3. 预测模型
本研究评估了五种预测模型：两种深度学习架构——卷积神经网络-长短期记忆（CNN-LSTM）和门控循环单元（GRU），以及三种基于树的集成方法——随机森林（RF）、极端梯度提升（XGB）和轻量级梯度提升机（LGBM）。结冰形成受到快速短期波动的影响，例如液态水含量的突然增加，以及在持续低温度条件下的缓慢积累。为了表示这些耦合的动态特性，CNN-LSTM模型应用了时间卷积来识别局部模式，并使用LSTM层来整合输入序列中的上下文信息。GRU模型的加入是为了探究是否一个更轻量的循环架构能够在计算成本更低的情况下提供相当的性能，从而支持操作部署。随机森林（Random Forest）、XGBoost和LightGBM作为集成基线模型，非常适合SCADA和气象数据，并且能够提供可解释的特征重要性。这些模型共同允许对输入信息量和建模复杂性进行结构化的比较。

3.3.1 CNN-LSTM模型
CNN-LSTM模型的形式如下，其中Xt?W+1:t∈?W×F表示一个宽度为W=60分钟的窗口，包含F个特征。一维卷积层生成特征图asz,c=fReLU∑i=0k?1∑f=1FKc,f,ixt+i,f+bc，其中Kc,f,i是核权重，bc是偏置项，fReLUx=max0x表示修正线性激活函数。这里，k代表时间核宽度（3-5分钟），对应于每个滤波器聚合的过去时间步数，所有变量都在一分钟的时间网格上进行索引。为了清晰起见，σsig·表示Sigmoid激活函数，⊙表示逐元素乘法。
两个时间卷积层（64个滤波器，核大小分别为3和5）结合批量归一化和dropout（0.2）来提取局部时间模式。得到的CNN特征序列Z∈?W×64被传递到一个单层单向LSTM（隐藏层大小为64），该LSTM更新其隐藏状态和单元状态如下：
ft=σsigWfht?1zt+bf,it=σsigWiht?1zt+bi,ct～=tanhWcht?1zt+bc,ct=ft⊙ct?1+it⊙ct～,ot=σsigWoht?1zt+bo,ht=ot⊙tanhct。
最终的隐藏状态hW总结了60分钟内的上下文信息。一个密集层将hW转换为标量logit，经过Linear64→64→ReLU→Dropout0.2→Linear64→1的处理，然后是一个Sigmoid激活函数，输出预测的结冰概率p?t+H。模型架构见在线附录A。

3.3.2 GRU模型
在GRU模型中，xt表示时间t的特征向量，ht?1表示之前的隐藏状态。在这个模型中，σsig·表示Sigmoid激活函数，fReLU·表示修正线性单元，⊙表示逐元素乘法。GRU单元更新其门和隐藏状态如下：
zt=σsigWzht?1xt+bz,rt=σsigWrht?1xt+br,ht～=tanhWhrt⊙ht?1xt+bh,ht=1?zt⊙ht?1+zt⊙ht～
一个具有64个隐藏单元的单向GRU层和0.2的dropout编码时间序列。其最终隐藏状态hW总结了回顾窗口W内的信息。输出层由两个全连接层（64→32→1）组成，采用fReLU激活函数和dropout，随后是一个Sigmoid函数，产生预测的结冰概率p?t+H。
在本研究中，GRU使用了更长的回顾窗口（60分钟）和步长为5分钟，实现了高效且表现力强的配置，适合操作部署。模型架构见在线附录A。

3.3.3 机器学习模型（RF、XGB和LGBM）
基于树的集成模型被用作基线预测器，因为它们适合结构化的SCADA和气象输入数据。这些算法无需显式特征缩放即可捕捉非线性交互，并且通常对测量噪声和中等程度的多重共线性具有鲁棒性，因此适用于操作传感器数据。随机森林通过自举聚合构建多个不相关的决策树，从而减少方差并提高泛化能力。XGBoost和LightGBM采用梯度提升树框架，通过逐步残差学习来优化预测。XGBoost利用二阶梯度信息和正则化来增强鲁棒性，而LightGBM通过基于直方图的分箱和叶级生长策略提高计算效率，使得在高维特征集上能够更快地训练。
使用这些模型有两个主要优势。首先，它们作为稳健的非时间基线，可以客观评估深度模型中的序列学习的好处，帮助确定预测能力主要是由输入的信息量还是时间模式提取驱动的。其次，它们提供了可解释的特征重要性度量，从而可以直接检查哪些变量对预测性能的贡献最大，支持对模型行为的物理解释。
由于训练数据中负样本与正样本的比例不同，通过比例类加权解决了类别不平衡问题。由于这些模型处理的是静态特征向量而不是完整的时间序列，它们不会捕捉到进展动态，这使得它们的结果能够独立于序列建模来分离输入构成的影响。超参数优化、概率校准和阈值选择是根据第3.5节中详述的程序进行的，以确保所有模型类型评估的一致性和无泄露性。
对于基于树的集成模型，使用固定长度的特征表示来编码60分钟回顾窗口内的时间信息。每个数值变量都使用窗口级统计量进行总结，即平均值、标准差、最小值和最大值，捕捉回顾期内大气和操作条件的持续性和变异性。此外，通过滞后特征结合时间上下文，其中每个变量都由其在预测时间之前10分钟、30分钟和60分钟的观测值表示。这些滞后值捕捉了与结冰形成相关的短期持续性效应，同时保持了受控的特征维度。所有滞后和总结特征都是严格因果相关的，并且仅来源于预测时的观测数据。
没有对基于树的模型应用时间扁平化、趋势提取或显式的序列建模。

3.4 模型训练、校准和评估协议
本小节汇总了所有无泄露的设计元素，包括时间序列分割、清除间隔、预测有效时间对齐、仅用于训练的预处理和校准、以及防泄露的特征过滤。所有模型都使用了分组时间序列交叉验证进行训练和评估，以反映真实的操作部署。定义了三个不重叠的时间分组，每个分组包含按时间顺序排列的连续训练、验证和测试部分，验证期紧邻测试窗口。在相邻部分之间强制执行6小时的清除间隔，以减少短期自相关的影响并防止信息在分组边界之间的泄露。
对于每个预测时段H和每个交叉验证分组，建模工作流程遵循固定的确定性顺序。首先，使用第3.2节中定义的变量分组构建特定于时段的输入变体，并使用有效时间匹配将预测因子对齐到相应的目标时间（t加上H）。当多个预测运行为同一目标时间（t + H）提供值时，只考虑在预测时间t之前或当时发布的预测。在这些预测中，选择最新发布的预测。在t之后发布的预测被排除。这一确定性规则确保了严格的操作因果关系和可重复的预测对齐。然后仅使用训练部分进行所有预处理操作，并将其不变地应用于验证和测试部分。这些操作包括因果缺失值处理、基于相关性的特征过滤以及深度学习模型的归一化。在预处理过程中不使用来自验证或测试期的任何信息。这种无泄露的、考虑时间序列的评估协议确保报告的性能反映了真实的操作预测能力，而不是时间泄露的伪影。
模型训练使用固定的超参数设置在处理后的训练数据上执行。超参数仅使用最早的那个分组进行一次调整，完全基于其训练和验证部分，以模拟操作部署前的实际预测实践。在此初始调整之后，超参数值保持不变，并在所有后续分组中重复使用，无需进一步调整。
深度学习模型使用大小为256的小批量进行训练，最多训练30个周期，采用二元交叉熵损失和与不平衡比例成比例的类别加权。Adam优化器被使用，学习率为0.001，权重衰减为0.0001，同时基于验证F1分数进行提前停止（耐心度为5个周期）。对GRU应用了全局范数为1.0的梯度裁剪，以提高训练稳定性。机器学习模型遵循相同的分组结构，并使用逆类别频率加权进行训练，不进行特征缩放。
模型拟合后，基于树的集成模型的概率输出使用等距回归在验证段上进行校准。深度学习架构没有单独校准，因为它们直接在二元交叉熵损失下进行训练，并使用基于验证的阈值优化进行评估。然后通过在验证数据上最大化F1分数来选择操作分类阈值，并在测试前固定。最终性能指标仅在保留的测试段上进行计算。在预处理、模型拟合或阈值选择期间均未使用测试观测数据。
所有预测变量都使用有效时间匹配对齐到每个预测时间戳，如第3.2节中所定义，确保仅使用目标时间有效的大气条件信息。在预处理期间不包括事件后的观测数据。为了提高可重复性，所有软件库中的随机种子都是固定的，并在支持的范围内启用了确定性的CuDNN（带有CUDA深度神经网络的卷积神经网络）操作。详细的超参数范围、最终调整值、校准设置和可重复性控制见附录B和C，以确保完全的可审计性。

3.5 评估指标和可重复性
模型性能使用时间序列交叉验证进行评估。对于每个交叉验证分组，在保留的测试段上计算指标，本文报告的最终性能值代表所有分组的平均值。选择F1分数作为主要指标，因为它在误报和漏检都具有操作后果的应用中非常相关。精度、召回率、平衡准确率和PR-AUC也与F1一起报告，以提供对分类可靠性和保守决策与反应性决策之间权衡的更广泛视图。指标评估了模型在各个时间戳上的性能，并报告到小数点后两位，以确保一致性。
为了评估实际的可检测性，还计算了事件级别的F1分数。结冰事件被定义为连续的时间间隔，在此期间IC-1结冰检测标志表示持续的结冰条件，这些事件被分组以反映操作上相关的积冰事件，而不仅仅是单独的时间戳级检测。连续的正面预测被分组为完整的结冰事件，并根据时间重叠标准与观测事件进行匹配。这评估了模型是否一致地捕捉到了结冰的开始和持续时间，而不仅仅是检测到的孤立时刻，这对于操作决策更为相关。
在观察到的序列和预测序列中，连续的正面读数如果相隔十分钟或更少，则合并为一个事件，以反映典型的传感器响应时间，并避免因短暂噪声而人为分割。合并后少于五分钟的事件被视为虚假检测而被丢弃。这种预处理对两个序列都对称应用，以确保观察到的事件和预测事件的建设遵循相同的规则。如果满足以下任一条件，则将预测的事件计为真正例：（a）预测事件的时间跨度至少与真实事件的时间跨度重叠了50％；或者（b）预测的开始时间在观察到的开始时间的±30分钟内。关于重叠阈值的敏感性在附录表D5中进行了演示，其中模型排名在30％和70％的重叠下保持一致，证实了报告的事件级别结论的稳健性。
所有指标的不确定性都使用块状自助法进行了量化，进行了1000次重采样，保留了块内的时间依赖性。对于时间戳和事件级别结果，生成了95％水平的置信区间。通过将选定的操作阈值扰动±0.05并重新评估性能来评估阈值稳健性，以测试在现实操作变化下的稳定性。输入配置和模型架构之间的比较基于分组平均指标，以便区分由输入质量引起的性能改进和由建模深度引起的改进。
对于每个交叉验证分组中的保留测试段，应用了块状自助法，使用连续的、固定长度的时间块进行采样。选择60分钟的块长度以匹配输入窗口的持续时间，并反映结冰事件和近地面气象条件的典型持续性。这种设计保持了结冰事件内的短时间依赖性，同时避免了标准自助法重采样的独立性假设。
在每个分组内独立进行了自助法。为了比较输入配置和模型架构，通过在整个分组内应用相同的自助法重采样索引来进行成对自助。这种配对确保报告的性能差异反映了方法论上的对比，而不是抽样变异性。最终置信区间是通过汇总分组间的自助分布获得的。
特征重要性使用适合模型的方法进行评估。对于基于树的集成模型，计算了基于分裂增益的归因，并在分组间进行了平均。对于深度学习架构，计算了所有测试时间戳上的平均绝对SHAP（Shapley Additive Explanations）值，并在整个60分钟输入窗口上进行了聚合。这种方法反映了每个特征对预测的影响，无论其在序列中的确切时间如何，与时间序列可解释性领域的常见做法一致。特征重要性被用来定性支持对性能趋势的物理解释，而不是作为主要的比较标准。通过固定在所有软件库中的随机种子，并在可能的情况下启用确定性的CuDNN操作来确保可重复性。所有的预处理步骤、超参数、数据划分、校准的阈值和预测输出都被记录下来，以便于追踪和实验一致性。4. 结果与讨论模型性能在三个预测时间范围（1小时、6小时和24小时）和四种输入配置（变体A-D；表1）上进行评估。结果主要使用F1分数来评估，该分数反映了在类别不平衡情况下漏报结冰事件和误报之间的操作权衡。还包括依赖于阈值的指标，如精确度、召回率和平衡准确率，以及使用曲线下面积（PR-AUC）测量的无阈值区分性能。在所有时间范围内，PR-AUC的趋势与基于F1的排名一致，表明观察到的性能差异反映了类别可分性的真实变化，而不是阈值选择的人为效应。为了支持超越聚合指标的物理解释，还使用基于事件的评估和模型特定的特征重要性进一步分析了性能。总结结果在正文中呈现，完整的指标表格提供在附录表D1-D3中。图3、图4、图6展示了说明性的性能比较，而图3a-b、5a-b和7a-b则检查了不同时间范围内的特征贡献。虽然本研究使用F1分数作为主要操作指标，但使用曲线下面积（PR-AUC）评估了无阈值的性能，以确保报告的性能提升不是由于特定决策阈值的人为效应。在所有模型和预测时间范围内，结合了预测信息的配置（变体C和D）始终比仅使用SCADA的配置获得了更高的PR-AUC，尤其是在6小时和24小时的时间范围内，这证实了在严重类别不平衡情况下类别可分性的提高。操作阈值通过使用F1分数进行优化，以平衡漏报结冰事件和误报，反映了早期预警结冰系统的操作要求。事件级评估进一步表明，基于时间戳的指标的改进转化为更可靠的完整结冰事件的检测，这对于涡轮机的控制和缓解是操作上相关的。下载：下载高分辨率图像（221KB）下载：下载全尺寸图像图3. 所有模型在1小时时间范围内所有输入变体的F1分数比较。下载：下载高分辨率图像（202KB）下载：下载全尺寸图像图4. a-b: 变体A在1小时时RF的特征重要性；变体B在1小时时RF的特征重要性。下载：下载高分辨率图像（151KB）下载：下载全尺寸图像图5. 所有模型在6小时时间范围内所有输入变体的F1分数比较。结果按预测时间范围呈现，以反映操作相关性。第4.1节关注1小时时间范围，该范围主要由短期微物理驱动因素主导。第4.2节探讨6小时预测，此时短期大气演变变得越来越重要。第4.3节讨论24小时时间范围，代表在更高不确定性下的次日决策。在每个部分中，都讨论了基于树的模型和深度学习架构，并根据结冰物理和操作用途对发现进行了解释。4.1. 一小时时间范围：高精度和来自丰富输入的增量收益在1小时时间范围内，所有模型在各种输入配置下都表现出强大的预测能力，F1分数通常介于0.74到0.86之间（图3）。使用变体D（SCADA、现场天气、结冰传感器和预测变量）获得了最佳性能，其中GRU的F1分数为0.86，紧随其后的是随机森林和CNN-LSTM（两者约为0.83）。这表明，尽管循环架构可以捕捉到短期过渡信号，但在这个时间范围内的大部分预测能力已经包含在输入数据中。GRU和配置良好的随机森林之间的小差距（约0.03）表明，在物理信息丰富的输入下，轻量级模型可以具有竞争力。从变体A到变体D，性能逐步提高。集成结冰传感器（变体B）带来了初步的收益（通常增加了0.05到0.07），而添加预测变量（变体C）提供了进一步的改进。从变体C到变体D的改进是适度的（约+0.02到+0.03 F1分数），但是一致的，并且与分类变异性的减少相关。在线附录D中提供的补充指标（PR-AUC和平衡准确率）支持这些发现，证实更高的F1分数伴随着更好的精确度-召回率权衡和更平衡的类别区分。这些结果表明，在短期时间内，结冰的开始与即时的微物理和热力学条件密切相关，当这些信息被明确提供时，模型能够有效检测到。深度学习通过时间模式提取提供了增量效益，但在特征足够有信息时并非必不可少。这些发现支持在短期预测中优先使用基于树的算法进行操作，特别是在计算效率和实施简单性被优先考虑的情景中。为了评估1小时性能提升是否反映了真实的预测能力，而不是当前结冰状态的持续性，模型结果与一个天真的持续性基线（F1 = 0.80）进行了比较。变体A模型的性能处于或低于这个基线（F1 = 0.74–0.80），这是预期的，因为没有任何当前的结冰状态信息——模型需要仅从大气前兆中推断未来的结冰条件。相比之下，变体B和D始终超过持续性基线（F1 = 0.78–0.84和0.81–0.86），表明传感器集成的收益反映了在转态检测方面的真正改进，而不是利用了结冰状态的连续性。4.1.1. 特征重要性分析随机森林模型的特征重要性支持了F1分析中观察到的性能趋势。在变体A（仅使用SCADA和气象变量）下，相对湿度成为主要预测因子，占总重要性的大约四分之一，其次是降水、空气温度和大气压力（图4a-b）。这表明，在缺乏直接与结冰相关的输入时，模型从与物理结冰形成过程强烈相关的大气条件中推断结冰风险。当添加结冰传感器数据（变体B）时，重要性转向微物理指标，冰厚度和IC-1结冰传感器共同贡献了大约24–25%的总重要性，结冰严重程度又增加了7–8%（图4b）。这导致对气象代理的依赖减少（例如，相对湿度减少到大约14%），表明模型不再推断结冰开始，而是能够直接检测到它。变体B中性能提升与特征贡献的变化一致，突显了传感器集成的操作价值，特别是在短期预警中。在1小时时间范围内，温度、相对湿度、液态水含量（LWC）和结冰传感器变量的重要性突出，这与接近0°C时的快速冰积聚物理现象一致，在这个温度下，热力学条件的小变化决定了大气中是否仍有过冷水可利用。LWC直接代表了叶片可以捕获的液态水量，因此对于给定的零下温度，积聚强度主要由LWC而不是温度单独控制。因此，具有相似热条件的时期可能会根据可用的液态水产生非常不同的结冰结果。从变体A到变体B的显著性能提升反映了模型通过直接结冰和LWC测量利用这些微物理信息的能力，而不仅仅依赖于间接的操作或气象代理。对于所研究的涡轮机和冬季季节，短期结冰预测最受即时微物理和热力学条件的影响。从变体A到变体B的改进，加上预测输入的相对较小贡献，表明在1小时时间范围内，本地测量的结冰指标和液态水含量是最有信息量的输入。在这些丰富的输入条件下，集成模型和深度学习模型表现出相似的性能，这表明输入的信息量超过了架构复杂性，对于短期操作检测而言。特征重要性模式进一步支持了在这个时间范围内对预测技能的过程性解释。在变体A中，没有任何结冰测量的情况下，模型被迫完全依赖于反映控制过冷液态水可用性的大气前兆。这代表了数据中基于过程的技能的下限，与结冰状态的连续性无关。当在变体B和D中添加传感器时，重要性向微物理变量的转变证实了性能提升来自于直接物理信号，而不是状态复制行为。4.2. 六小时时间范围：从传感器驱动的精细化到预测驱动的技能的转变与1小时时间范围相比，模型性能下降，表明当前的涡轮机 and 大气条件无法完全捕捉六小时后导致结冰的过程。图5显示，在变体A下，深度模型保持轻微的优势（CNN-LSTM F1 = 0.52；GRU F1 = 0.49），但所有模型的精确度（PR-AUC ≤ 0.58）和平衡准确率都低于0.80。这表明在没有前瞻性上下文的情况下，模型对短期模式敏感，但难以预测延迟的开始。在变体B中引入结冰传感器导致了不同的响应。随机森林的F1分数从0.35提高到0.43，反映了其利用近期积聚的经验指标的能力。相比之下，梯度提升模型（XGB、LGBM）的变化很小，表明对孤立传感器信号的敏感性有限。CNN-LSTM和GRU的性能略有下降（例如CNN-LSTM从0.52降到0.50），这与结冰传感器有助于当前状态检测但提供的对未来事件发展的指导较弱的事实一致。在线附录D中观察到的精确度-召回率的改进证实了这种变异性来自于检测信心的变化，而不是阈值的不稳定性。一旦引入预测变量（变体C），所有模型都显示出显著的改善，LGBM、XGB和RF的F1分数达到约0.63–0.68，深度模型则提高到0.74（CNN-LSTM）和0.78（GRU）。两种模型的平衡准确率都增加到≥0.82。这些结果表明，六小时的结冰风险越来越多地受到演变的热力学条件的影响，而不仅仅是涡轮机行为。深度架构由于能够整合预测驱动的时间模式而受益最多，而基于树的模型则只是利用结构化的气象信号。将结冰传感器添加到预测中（变体D）只带来了有限的收益（≤ +0.02 F1），这表明一旦知道了未来的天气轨迹，传感器输入主要有助于细化边缘决策，而不是带来重大改进。由于F1分数对于早期预警场景的相关性，它仍然作为主要指标。PR-AUC和平衡准确率支持相同的趋势（附录A），证实性能提升来自于对阳性案例的更好识别，而不是阈值调整效应。4.2.1. 特征重要性分析（6小时时间范围）特征重要性模式是使用GRU模型的SHAP值得出的，该模型在这个时间范围内在深度架构中表现最佳，并且最好地捕捉了时间学习行为（图6a）。在变体A（仅使用SCADA和现场气象）下，模型最重视空气温度和气压，表明依赖于当前状态的大气条件。当引入预测变量（变体C）时，重要性转向与时间范围匹配的预测因子，如预测的温度、湿度和风速，表明预测技能越来越来源于预期而非即时的环境状态（图6b）。这种转变与变体A和C之间观察到的性能提升一致。下载：下载高分辨率图像（182KB）下载：下载全尺寸图像图6. a-b: 变体A和C在6小时时GRU的特征重要性。在6小时时间范围内，预测技能主要取决于预测的大尺度大气条件的演变，而不是即时的局部结冰指标。GRU在预测增强配置下的特征重要性结果（变体C，图6a）显示，空气温度、预测的云覆盖、压力和风速主导了预测，表明对与结冰有利条件相关的大尺度条件的敏感性。相比之下，相对湿度仅出现在现场配置中（变体A，图6b），因为没有使用预测的相对湿度；相反，预测的湿度是通过ECCC数值天气预测系统提供的特定湿度、云和液态水变量来表示的。这些预测变量描述了大气环境是否正在向支持未来结冰有利的水分和温度条件转变，即使在传感器检测到局部积聚之前也是如此。这解释了在这个时间范围内包含预测输入时获得的显著性能提升。对于基于树的模型（附录D）也观察到了一致的趋势，证实了改进是由访问预测的大气结构驱动的，而不是由模型架构驱动的。在6小时时间范围内，前瞻性大气信息的重要性增加。与变体A和B相比，变体C的一致性能提升表明，与时间范围匹配的预测变量为这个数据集的中期可预测性提供了主要贡献，而结冰传感器主要细化了当前状态的检测。深度学习模型对这些不断变化的预测模式表现出略微更高的敏感性，尽管在包含预测输入后，集成方法仍然具有竞争力。4.3. 24小时时间范围：受预测大气演变影响的远期预测模型准确性在24小时时间范围内下降，这反映了当前涡轮机或气象条件在未来一天内预测结冰风险的能力有限。如图7所示，在所有架构下， Variant A的性能仍然较低，其中CNN-LSTM的区分度最高（F1 = 0.44），GRU略低一些。这些分数表明，模型试图从当前的运行响应和环境条件间接推断未来的结冰情况，但缺乏前瞻性信息限制了它们的实际效用。增加结冰传感器（Variant B）只会带来边际性的改进（例如RF从0.41提高到0.45），并且在平衡准确率方面几乎没有变化，这表明局部积聚信号在超出即时时间范围时的预测价值有限。

通过引入预测天气变量（Variant C），所有模型的性能都有显著提高，F1分数通常达到0.63–0.66，平衡准确率超过0.72。在这种配置下，深度学习和集成方法之间的差异显著缩小（例如CNN-LSTM 0.66对RF 0.65），这表明一旦有了相关的大气未来信息，输入的信息量比模型深度更为重要。在Variant D下只观察到边际性提高或轻微下降，这表明当基于预测的驱动因素已经主导预测时，短期结冰传感器变量并不会显著改善次日预测。附录A中报告的其他性能指标也证实了这些基于F1的趋势在PR-AUC和平衡准确率上是一致的。总体而言，这些结果表明24小时结冰预测与预期的天气演变密切相关，而当前涡轮机行为或基于传感器的积聚指标的影响较小。在研究的地点和季节内，当未来天气信息不可用时，深度学习仍然具有价值；但当有可靠的预测时，像LGBM这样的轻量级模型也能达到可比的性能，支持它们在这一时间范围内的操作部署。

4.3.1. 特征重要性分析（CNN-LSTM，24小时时间范围）
特征重要性结果与较长时间范围内观察到的性能表现一致。在Variant A下，CNN-LSTM主要依赖于空气温度、空气密度和相对湿度，以及诸如转子速度和涡轮机功率等运行变量（图8a）。

这些参数反映了涡轮机的即时热力学环境，但主要作为反应性指标，限制了它们在24小时提前时间内的相关性。这与相对较低的区分度（F1 ≈ 0.44）是一致的。当引入预测变量（Variant C）时，重要性转向与时间范围匹配的预测因子，如预测的风速、温度和空气密度（图8b）。这种转变表明模型从基于当前涡轮机响应的风险推断转变为预测大气演变。因此，F1的随后提高（从约0.44提高到约0.65）源于能够访问物理上有意义的未来指标，而不仅仅是增强的时间推理能力。

这些发现进一步证实，在次日尺度上，输入的信息量，特别是通过气象预测，对预测能力的影响大于网络深度。虽然增强的输入允许远期风险预测，但在这个时间范围内不确定性仍然较高。下一节将评估不确定性传播和事件级性能，以评估在实际决策标准下的鲁棒性。

对于这个单一地点的冬季数据集的次日预测，预测能力主要受限于可用的与时间范围匹配的气象预测，而不是局部涡轮机或结冰传感器测量。从Variant A和B到Variant C的显著改进表明，可用的24小时结冰预测取决于预期的大气演变。当这种预测信息可用时，集成模型和深度学习模型都表现出相当的性能，这意味着在当前设置下，远期能力主要受输入限制，而非架构限制。

4.4. 输入富集对时间范围的影响
为了综合不同信息源如何影响不同提前时间内的结冰预测，并提供一个连贯的框架来识别哪些输入在哪些时间范围内重要，在受控信息条件下检查了不同输入配置之间的性能对比。除了依赖置信区间的视觉重叠外，还使用了配对比较来评估随预测时间范围增加，预测派生的预测因子和结冰传感器变量如何贡献于预测能力。分析聚焦于两个在所有时间范围内都具有重要意义的条件转换：从Variant A到Variant C的转换，它隔离了纳入预测信息的效果；以及从Variant C到Variant D的转换，它量化了在预测已经可用的情况下结冰传感器输入的额外价值。

表2总结了随着预测和结冰传感器输入富集，F1分数的中间值配对变化。范围反映了不同模型架构之间的变异性；方向和幅度在所有模型中是一致的。

在1小时时间范围内，从Variant A到Variant C的转换在所有模型中仅带来轻微的改进，表明短期结冰的可预测性受预测大气演变的影响较小。相比之下，从Variant C到Variant D的转换产生了清晰且一致的性能提升，反映了当地观察到的微物理条件（包括液态水含量和结冰传感器测量）在近期结冰检测中的主导作用。这种模式在集成模型和深度学习架构中都存在，表明即时的结冰风险越来越多地受到现场物理感测的影响，而不是预期的天气变化。

在6小时时间范围内，预测信息的相对贡献显著增加。在所有模型中，Variant C的一致性表现优于Variant A，表明中期结冰的可预测性在很大程度上依赖于与时间范围匹配的大气预测。一旦纳入预测输入，结冰传感器变量的额外收益有限，在从Variant C到Variant D的转换中只观察到轻微的改进。这种转变反映了大气演变开始主导可预测性的转变，而即时局部测量的影响减弱。

在24小时时间范围内，预测派生的输入成为预测能力的主要驱动因素。在没有预测信息的模型（Variant A和B）中，无论架构如何，性能都较差；而包含预测因子（Variant C）则使所有模型类别的性能都有了飞跃性的提升。随后添加结冰传感器变量仅带来小幅度的增量收益，表明当预测延伸到次日时，局部感测提供的额外信息有限。这些结果表明，在研究的设置中，可靠的长期结冰预测强烈依赖于预测驱动，而不仅仅是通过局部测量实现的。

总体而言，这些结果表明，远期结冰预测与预期的大气演变密切相关，而不是当前的操作状态或基于传感器的积聚线索。虽然在输入稀疏的情况下CNN-LSTM的表现最好，但一旦纳入预测数据，基于树的模型（如LGBM）也能提供相当的准确性，这支持了它们在次日操作应用中的适用性，考虑到它们的效率和易于部署的特点。

4.5. 不确定性和事件级预测能力
模型鲁棒性是通过块自举方法评估的，该方法对时间戳级别的预测进行了1000次重采样以考虑时间依赖性。在所有配置中，F1分数的95%置信区间通常在±0.02到±0.05之间。事件级性能值显示在图9中（在线附录D中有完整总结），该图显示所有模型都受益于输入富集，其中CNN-LSTM和GRU在包含预测支持的情况下（C/D）表现出最高的性能，而机器学习模型在纳入未来大气演变后也紧随其后。模型排名在这些区间内保持不变，表明观察到的性能差异反映了有意义的预测能力，而不是采样变异性。尽管在某些情况下置信区间部分重叠，但配对块自举比较表明，在超过85%的重采样中，富集配置实现了更高的F1分数，这证实了改进趋势是系统的，而不是由于随机变化。虽然分析覆盖了单个冬季季节，但块时间序列交叉验证结合事件级自举确保了这些趋势在该季节内跨越多个独立时间段的评估。

通过二元标志消融分析进一步证实了连续IC-1测量的时间范围依赖价值。首先，将Variant B的RF模型限制在仅使用二元结冰标志（去除LWC、厚度和严重程度）的情况下，显示连续通道在1小时时间范围内提供了适度但一致的改进（ΔF1 = +0.025，全通道为0.807对比二元标志为0.782），这与它们在短提前时间内的物理相关性一致。在6小时和24小时时，这种优势不再存在，这与当前结冰强度在其直接物理时间尺度之外没有直接信息是一致的。其次，RF特征重要性在通道级别上也确认了相同的模式：四个IC-1通道在1小时时占总重要性的61%，在6小时时下降到32%，在24小时时下降到14%，此时NWP变量完全占主导。厚度在各个时间范围内的持续性最强，这与结冰积累是一个比即时LWC或严重程度演变更慢的过程一致。这些分析共同证实，连续的微物理测量在短时间范围内提供了超出二元结冰标志的适度价值，而它们的贡献在超出它们测量的物理时间范围后减弱。

模型鲁棒性是通过使用时间戳级别预测的块自举（1000次重采样）来评估的。在所有配置中，F1分数的95%置信区间通常在±0.02到±0.05之间。事件级性能值显示在图9中（在线附录D中有完整总结），该图显示所有模型都受益于输入富集，其中CNN-LSTM和GRU在包含预测支持的配置下（C/D）表现出最高的性能，而机器学习模型在其后紧随其后。模型排名在这些区间内保持不变，表明观察到的性能差异反映了有意义的预测能力，而不是采样变异性。尽管在某些情况下置信区间部分重叠，但配对块自举比较表明，在超过85%的重采样中，富集配置实现了更高的F1分数，这证实了改进趋势是系统的，而不是由于随机变化。虽然分析覆盖了单个冬季季节，但块时间序列交叉验证结合事件级自举确保了这些趋势在该季节内跨越多个独立时间段的评估。

使用等渗回归进行概率校准减少了基于树的模型的过度信心，特别是在短时间范围内；而深度架构在较高概率范围内保持了轻微的乐观性。通过对操作阈值τ*进行±0.05的扰动，时间戳级别的F1平均变化不到0.01，表明比较结果并不过度依赖于阈值选择。由于时间戳级别指标并不完全反映操作实用性，因此通过将连续检测分组为结冰事件来计算事件级F1分数。如果预测区间与其观察到的事件持续时间至少有50%的重叠，或者发生在±30分钟的窗口内，则认为事件被正确识别。事件级分数在所有时间范围内始终高于时间戳级别值，根据模型和输入配置的不同，提高了大约0.03–0.11。对于时间戳检测碎片化的配置（如随机森林和CNN-LSTM在输入稀疏的情况下），获得了最大的增益，这证实了尽管定时精度可能有限，但核心结冰演变通常能够被捕捉到。

事件级性能指标对所选择的时间匹配标准敏感，包括50%的重叠阈值和±30分钟的窗口（附录表D5）。使用替代阈值（例如更严格的70%重叠或±15分钟，以及更宽松的30%重叠或±60分钟）进行的敏感性测试表明，虽然绝对事件F1分数有所不同，但模型配置的相对排名和从输入富集中获得的方向性改进仍然稳健。选择的准则反映了结冰开始检测的操作容忍度的现实性。因此，关键发现——即预测信息配置在中期和长期时间内显著提高了事件检测能力——在合理的阈值变化范围内是成立的。事件级分析还揭示了在不同结冰事件特征下的可预测性系统差异。短时间和中度至严重的结冰事件，特别是那些与接近冻结点的清晰热力学转变和升高的液态水含量相关的事件，在评估的时间范围内更可靠地被检测到。相比之下，长时间或缓慢起始、间歇性积累信号或边际大气条件的结冰事件更难以一致预测，特别是在较长的提前时间内。这些限制反映了大气演变的内在不确定性和在边际条件下降低的信号-to-noise比率。

在1小时时间范围内，ML和DL模型在富集输入配置下实现了事件级F1 ≥ 0.80，支持它们适合短期操作决策。然而，IC-1冰传感器（版本B）实现的准确性与仅使用预报天气数据（版本C）相当或更高，而后者往往无法获得。在6小时的时间范围内，性能保持中等水平，尽管在预报驱动的输入下，深度架构提供了轻微的优势，但配置良好的集成学习器仍然具有竞争力。使用预报数据（C和D）比使用IC-1冰传感器数据变得更加重要。在24小时的时间范围内，这一优势更加明显，版本C/D的准确率约为0.66到0.75。

理解在不同气象条件下的运行可靠性对于在寒冷气候下的风能发电操作中部署结冰预测系统至关重要。为此，根据预报范围和输入配置对模型性能进行了分层（表3）。通过将附录D中报告的交叉验证程序中的外部预测结果汇总到特定于条件的混淆矩阵中，并在相同的决策阈值下进行评估，得到了特定于条件的F1值。这种事后的分层提供了可靠性解释模式，以指导运行决策。条件列代表独立的（非排他性的）分层，而不是特征空间的划分，并作为潜在微观物理过程的统计代理，而不是直接分类结冰类型。

表3. 不同环境条件和预报范围下的可靠性分层（? – T < 0°C AND LWC ≥ 0.1 g/m3 AND RH ≥ 90%）

| 报告范围 | 输入 | 总体F1分数 |
|---------|------|---------|
| 1小时 | 版本A | 0.74 | 0.80 | 0.83 | 0.78 | 0.68 | 0.62 | 0.64 |
| | 版本D | 0.82 | 0.88 | 0.92 | 0.86 | 0.76 | 0.68 | 0.74 |
| 6小时 | 版本A | 0.47 | 0.53 | 0.52 | 0.48 | 0.42 | 0.39 | 0.41 |
| | 版本D | 0.64 | 0.71 | 0.72 | 0.67 | 0.57 | 0.54 | 0.55 |
| 24小时 | 版本A | 0.39 | 0.43 | 0.44 | 0.40 | 0.36 | 0.33 | 0.33 |
| | 版本D | 0.61 | 0.68 | 0.66 | 0.62 | 0.58 | 0.54 | 0.55 |

条件成员资格完全根据预测时间t时现场观测的值来确定，而非预报场数据。具体来说，表3中列出的阈值标准（例如T < 0°C、LWC ≥ 0.1 g/m3、RH ≥ 90%、风速 ≥ 8 m/s）被应用于IC-1传感器和当时记录的现场气象测量数据。这种设计确保了条件分配在操作上是可复制的，无需了解未来的条件。这也意味着条件描述了模型预测的大气状态，而不是目标时间点的状态——例如，标记为“接近冻结”的预测反映了t时的条件，无论t + H时是否发生结冰。

性能分层揭示了在不同条件下的系统模式。与较强检测信号相关的条件（高相对湿度（≥90%）、高信号条件（T < 0°C AND LWC ≥ 0.1 g/m3 AND RH ≥ 90%）和高风速（≥8 m/s）在所有预报范围内都表现出提升的性能。在1小时的时间范围内，这些条件在增强输入下的F1分数分别为0.88、0.92和0.86，表明当大气指标提供明确信号时，预测能力很强。这些条件与更持久和可检测的积冰模式相关，这与环境状态和积冰速率之间的已知关系一致。而与较弱检测信号相关的条件（接近冻结的温度（-2°C至+2°C）、低液态水含量（<0.1 g/m3）和中等相对湿度（70–90%）在所有时间范围内都表现出了下降的性能。在1小时的时间范围内，这些条件在增强输入下的F1分数分别为0.76、0.68和0.74，而基线配置下的F1分数分别为0.68、0.62和0.64。高强度和低强度条件之间的性能差距（大约15-20个百分点）反映了当大气指标较弱或在阈值附近波动时，检测结冰开始的难度。接近冻结的条件在降水相变中引入了不确定性，而低液态水含量为检测算法提供了最小的信号强度。中等湿度条件代表处于过渡状态的大气，其中结冰的可能性由于热力学过程的竞争而本质上不明确。

在较长的预报时间范围内，性能下降更加明显，特别是在低信号条件下。在24小时的时间范围内，即使经过全面增强，低LWC条件下的F1分数仍低于0.54，而高强度条件下的F1分数为0.66–0.68——这表明了一个持续12-14点的差距。高强度条件相对于低强度条件的性能优势在各个时间范围内都存在，表明条件依赖的局限性是系统性的，并且随着预见时间的延长而加剧。这些模式反映了大气不确定性的传播，这对弱信号条件影响尤为显著，因为预报的准确性在很大程度上依赖于对微物理过程的准确表征。

输入增强（版本A至D）提高了所有条件下的性能，但没有消除信号强度的差距。在1小时的时间范围内，增强了低LWC条件下的性能，F1分数从0.62提高到0.68（+6分），同时增强了高RH条件下的性能，从0.80提高到0.88（+8分），表明传感器和预报输入对两种条件类型都有益。然而，绝对性能上限仍然取决于条件：即使在全面增强下，24小时时的低信号条件下的F1分数仍低于0.58，而高强度条件下的F1分数保持在0.62以上。增强条件下条件差距的持续存在及其随预见时间的放大表明，实际的可预测性限制主要由微弱微物理信号和预报不确定性所主导。

这些特定于条件的模式为涡轮机操作员和基础设施管理者提供了可操作的指导。高强度条件支持直接的操作行动，例如预先激活抗冰系统或关闭涡轮机的协议，与边际条件相比，误报倾向更低，即使在提前一天的时间范围内也是如此。低信号条件需要基于集成的概率解释、保守的阈值调整或人工监督，以应对增加的预报不确定性。这些模式在模型架构和输入配置中的系统性表明，它们反映了信号强度和预报不确定性在不同条件下的系统性差异，提供了可能适用于风能应用之外的洞察力，这需要在其他地点和季节中进行验证。总体而言，条件依赖的可靠性成为提前一天结冰预测的一个结构性特征，表明预报能力更多地受到环境信号强度的限制，而不仅仅是模型架构本身。

结果定义了一个明确的操作决策框架。对于短期结冰控制（1小时），涡轮机上的结冰传感器和液态水含量测量提供了最大的性能提升，因此对于触发叶片加热和除冰动作最为相关。对于中期规划（6小时），预报气象变量主导了预测能力，对于调度维护、人员部署和涡轮机可用性最有价值。对于提前一天的规划（24小时），天气预报是可用预测能力的主要驱动因素，特别适用于能源交易、生产调度和电网承诺，而结冰传感器输入的额外收益很小。这种按预报范围对输入类别的排序表明，在传感与预报基础设施上的投资可以在哪里产生最大的操作价值。

可靠的结冰预测具有实际的操作价值，因为它使风电场运营商能够预测生产损失并优化抗冰或除冰动作的时机。当结冰可以更早且更确定地识别时，干预可以更有效地针对，减少不必要的限电并最小化能源损失。在中期和长期范围内，预期的效益最大，因为改进的召回率支持了主动规划，而短期范围内的准确性允许在积冰即将发生时精确触发叶片加热。为了说明这种影响的潜在规模，提供了一个基于研究期间观察到的结冰事件频率和持续时间的简单能源恢复估计。

在五个月的数据集中，记录了211次结冰事件，总计约528小时的结冰条件，平均每次事件持续约2.5小时。为了操作估算，假设了一个典型的2兆瓦冷气候涡轮机，该涡轮机在易结冰条件下通常只能产生约1.0兆瓦的电力，因为空气动力学效率降低和冬季风速适中。如果改进的预报能够防止每次事件中不必要的一小时限电，那么每个涡轮机的潜在季节性能源恢复量大约为211兆瓦时（211次事件 × 1小时 × 1.0兆瓦）。为了反映结冰事件期间的典型变异性，涡轮机输出在0.8兆瓦和1.2兆瓦之间保守变化。较低的值代表在有限风条件下的减少功率，而较高的值假设尽管有结冰风险，但风条件有利。这导致每个涡轮机每个冬季的估计恢复量在大约170兆瓦时（211 × 0.8）到250兆瓦时（211 × 1.2）之间，与报告的冬季损失估计的10%到20%的年产量相符。这些估计是示意性的，基于汇总的事件统计数据，而不是个别案例研究，数据保密性考虑在内。

电热除冰系统在活动期间通常消耗大约5%到10%的额定涡轮机功率，相当于2兆瓦涡轮机的约100到200千瓦（Stoyanov和Nixon 2021；Getz等人2020）。即使考虑到这种辅助能源使用，净恢复量仍然是正的，因为避免的不必要限电通常超过了加热的功率需求。此外，IPS加热可以调节以维持抗冰条件，而不是在整个结冰事件期间以恒定功率运行。

这些估计是数量级的值。实际可恢复的能源将取决于涡轮机类型、特定地点的气候学、限电策略和结冰频率。然而，结果表明，改进的预报，特别是当使用基于传感器的输入和预报衍生的大气预测器时，可以显著更针对性和主动地缓解结冰的影响。

研究涉及单一涡轮机和一个天气季节，这限制了空间的可转移性，并且没有捕捉到涡轮机之间的变异性或局部环境条件下的结冰差异。预报输入来自单一的数值天气预报提供商，尽管以安全的方式整合，但可能嵌入了通过校准尚未完全表征的系统性偏差。二元结冰目标来自单一的IC-1冰传感器，传感器的噪声、漂移或安装特定效应可能会传播到学习到的关系和报告的性能中。虽然结果显示使用时间匹配的预报时有明显的收益，但未来的工作应比较多个天气预报系统，并测试自适应偏差校正或集成预报是否能提高长期范围内的稳健性。深度学习模型使用固定架构和调整后的超参数进行训练。未来的工作应研究自适应模型设计、考虑不确定性的公式和在线学习策略，以改善在变化大气条件下的韧性。尽管结论是基于单一涡轮机、地点和冬季季节得出的，但预报信息在中期和长期范围内的重要性与已建立的天气尺度结冰过程一致，表明输入信息量的质量层次结构可能普遍适用于其他寒冷气候地点。将分析扩展到多地点、多冬季的数据集，并建立一个具有标准化时间划分和可复现代码的公共基准，将提供更强的实证验证，并促进在操作预报系统中的部署。

这项研究评估了三个时间范围和四种输入配置下的五种预报模型，以确定输入质量和模型架构的相对重要性。结果表明，增强的输入是预测性能的主要驱动因素。预报天气在6小时和24小时的时间范围内显著提高了F1分数，而结冰传感器和LWC特征主要改善了1小时的预测。模型复杂性具有次要影响，一旦包含了物理上有信息量的输入，轻量级集成模型的性能与深度学习相当。深度架构在输入未能完全反映未来大气趋势时提供了边际效益。在没有预报数据的情况下，提前一天的预测仍然不可靠，而结合时间匹配的预报和物理传感则获得了可行的操作性能。在某些配置中的轻微下降突显了仔细调整传感器输入的时间对齐的必要性。

总体而言，对于所研究的涡轮机、地点和冬季季节，高质量、物理信息丰富的数据在确定结冰预测能力方面似乎比架构深度更有影响力。因此，操作策略可能受益于优先考虑改进的传感和可靠的预报，而不是增加模型复杂性。未来的工作应评估在不同地点、季节和预报提供商之间的泛化能力，并探索结合物理理解和数据驱动方法的混合模型。这些结论来自单一地点、单一季节的分析，应在这一操作背景下进行解释。

在准备手稿的过程中，作者使用了CHATGPT来完善写作。使用此工具/服务后，作者根据需要审查和编辑了内容，并对发布的文章内容承担全部责任。

代码可用性
预处理和模型训练代码（RF/XGB/LGBM、GRU和CNN-LSTM）由于知识产权协议而受到机构限制。

热点排行