DMoE-LLM:一种结合大型语言模型的双分支专家混合框架,用于风力发电预测
《Expert Systems with Applications》:DMoE-LLM: A Dual-Branch Mixture-of-Experts Framework with Large Language Models for Wind Power Forecasting
【字体:
大
中
小
】
时间:2026年04月30日
来源:Expert Systems with Applications 7.5
编辑推荐:
冯星宇|郭德康|叶明顺
海南大学计算机科学与技术学院,海口市,570228,海南,中国
**摘要**
准确的风力发电预测对电网稳定性至关重要。然而,现有的基于大型语言模型(LLM)的方法主要采用单分支架构,缺乏专门的时间编码器,而传统的深度学习方法也没有利用预训练的
冯星宇|郭德康|叶明顺
海南大学计算机科学与技术学院,海口市,570228,海南,中国
**摘要**
准确的风力发电预测对电网稳定性至关重要。然而,现有的基于大型语言模型(LLM)的方法主要采用单分支架构,缺乏专门的时间编码器,而传统的深度学习方法也没有利用预训练的表示。本文提出了DMoE-LLM,这是一种双分支框架,它结合了时间序列分支来捕捉内在的时间动态,以及大型语言模型分支来进行上下文表示学习。交叉注意力融合机制结合了两个分支的互补特征,随后是一个稀疏专家混合解码器,通过top-K路由根据输入特征条件性地激活专家网络,从而扩展了模型容量。多分辨率预测头与自适应调度相结合,实现了无需重新训练即可进行灵活的多时间范围预测。在来自不同地理区域的六个风电场数据集上的实验表明,DMoE-LLM在性能上始终优于18种基线方法,在所有预测时间范围内,与最强的非LLM基线相比,累积平均绝对误差(MAE)降低了18.6%–40.8%,与最佳的基于LLM的基线相比降低了9.9%。消融研究证实了每个架构组件的独立贡献及其协同作用。
**引言**
化石燃料的过度消耗导致了严重的环境退化和能源资源枯竭,迫切需要向可再生能源过渡。作为一种可持续且环境友好的替代方案,风能已成为应对这些挑战的有希望的解决方案。然而,风资源的固有随机性和时间变异性给电力生成带来了显著波动,从而对电网稳定性和供需平衡带来了挑战(Fan, Li, Zhang, Cheng, Ye, Liu, Liu, 2026b; Zhu, Jia, Xing, Xiang, Hu, Hao, 2025)。这些不确定性源于复杂的大气动力学和非线性空气动力学现象,大大增加了电力系统运行的复杂性。因此,开发鲁棒且准确的风力发电预测方法对于维护电网可靠性、提高运行效率以及实现风能与电力网络的无缝集成至关重要(Duan, Bian, Yang, Li, 2025; Wu, Ling, 2025)。
在过去几十年中,风力发电预测的研究经历了多种范式的进步。最初的研究主要依赖于经典统计方法,包括自回归积分移动平均模型和Weibull概率分布,这些方法基于历史模式和统计推断进行预测。然而,这些方法受到线性假设的根本限制,无法有效建模风力发电时间序列中的非平稳和非线性动态。基于物理的方法,特别是数值天气预测系统,试图通过计算模拟大气过程来预测风况。尽管有理论基础,但这些方法受到粗空间分辨率和高计算需求的限制,无法有效捕捉局部风速变化和突然转变。
神经网络架构的出现通过无需手动特征工程即可实现非线性函数逼近,彻底改变了风力发电预测。循环神经网络,特别是长短期记忆网络(Greff, Srivastava, Koutník, Steunebrink, Schmidhuber, 2016; Hochreiter, Schmidhuber, 1997)和门控循环单元(Dey & Salem, 2017),在模拟风力发电数据中的序列依赖性方面表现出色。这些架构通过复杂的门控机制解决了梯度相关问题,促进了时间模式的有效学习。双向处理策略(Sareen, Panigrahi, Shikhola, Sharma, 2023; Siami-Namini, Tavakoli, Namin, 2019)通过捕捉前向和后向的时间上下文进一步增强了表示学习。最初为计算机视觉中的空间特征提取而开发的卷积架构(Memarzadeh & Keynia, 2020)也被成功应用于识别局部时间模式。后续研究探索了混合框架(Li, Song, Zhang, Kraus, Adcox, Willardson, Komandur, Lu, 2023; Song, Liu, Fang, Liu, Zhong, Liu, 2024),这些框架结合了卷积和循环组件,以利用空间和时间特征。尽管取得了这些进展,计算复杂性和有限的远距离建模能力仍然是持续的挑战。
Transformer架构的出现通过自注意力机制显著推进了风力发电预测,使得显式依赖性建模成为可能。早期应用(Wu, Meng, Fan, Zhang, & Liu, 2022b)展示了基于注意力的序列建模在多步骤预测任务中的有效性。后续发展通过稀疏注意力策略(Zhou et al., 2021)和各种基于注意力的融合机制(Ma, Mei, 2022; Zhang, Yan, Liu, Gao, Han, Li, 2021)提高了计算效率。最近的架构创新包括基于补丁的标记化方法(Nie, 2022)、用于多变量建模的倒置注意力结构(Liu et al., 2023)以及外生变量的显式结合(Wang et al., 2024)。与此同时,图神经网络方法被提出用于捕捉地理分布风电场之间的空间相关性,包括多模态时空网络(Fan, Zhang, Mei, Chen, & Chen, 2020)、图变换器混合体(Liang, Gu, & You, 2025a)和动态图架构(Yang, Wang, Zhang, Yv, 2024; Zhao, Liao, Pan, Zhao, 2024)。然而,这些方法主要集中在从数值序列中提取模式,很大程度上忽略了大型预训练语言模型固有的表示学习能力。
自然语言处理的最新突破激发了探索大型语言模型在时间序列预测应用中的潜力。通过对多样化文本语料库的广泛预训练,LLM获得了复杂的模式识别和推理能力,这可能有助于时间建模。代表性工作包括基于重新编程的方法(Jin et al., 2024),将时间序列映射到语言模型嵌入空间,以及基于标记化的方法(Ansari et al., 2024),将数值序列视为离散标记。在风力发电预测领域,一些研究探索了LLM的适应策略,包括整合文本和数值信息的多模态架构(Fan et al., 2026b)、结合长距离LLM表示和短期空间依赖性的全局-局部建模框架(Wu & Ling, 2025)、基于分解的提示工程方法(Liu et al., 2025)、跨模态迁移学习技术(Zhu et al., 2025)以及用于零样本泛化的提示调优方法(Duan, Bian, Yang, 2026; Duan, Bian, Yang, Li, 2025)。此外,还有研究探讨了注意力增强机制(Hu, Gao, Sun, & Mae, 2025)和时间序列提示策略(Fan, Song, Feng, Liu, & Jiang, 2025)以适应基础模型。
尽管取得了这些有希望的进展,现有方法仍存在几个根本性限制。首先,主流的基于LLM的预测框架主要采用单体架构,其中预训练的语言模型被直接适应或微调用于时间预测。虽然这些单路径设计在通过自注意力捕捉长距离依赖性方面有效,但它们缺乏提取风电发电特有的领域特定统计模式和瞬态动态的专门组件。其次,传统的预测架构使用具有静态参数分配的全连接密集网络,所有网络参数无论输入特征如何都均匀激活。这种设计理念限制了模型在异构操作条件和不同气象条件下的可扩展性和适应性。尽管专家混合机制在大型语言建模(Liu et al., 2024a)和最近的时间序列基础模型(Xiaoming et al., 2025)中通过条件计算和专门的专家路由展示了显著改进,但它们在风力发电预测中的潜力,特别是在双分支架构中,仍然很大程度上未被探索。第三,大多数现有方法是为特定预测时间范围设计和优化的,当预测长度变化时,需要单独训练模型或完全重新调整参数,从而限制了操作灵活性。
为了解决这些根本性挑战,我们提出了DMoE-LLM,这是一种新颖的双分支架构,结合了稀疏专家混合机制,用于跨多个时间尺度进行自适应风力发电预测。该框架包括两个协同路径:一个专门的时间序列分支,用于提取风电数据特有的时间动态和统计特征;一个语言模型分支,利用大规模预训练期间获得的强大表示学习和上下文建模能力。这些互补的表示通过交叉注意力融合模块集成,促进了领域特定时间特征和通用上下文表示之间的双向知识传递。为了在保持计算效率的同时实现可扩展的容量扩展,我们采用了稀疏专家混合解码器,通过top-K专家选择根据输入特征条件性地激活专门专家网络,以处理不同的风况和时间模式。此外,该框架还包括具有自适应时间范围调度的多分辨率预测头,可以在不修改架构或重新训练参数的情况下同时进行任意时间范围的预测,从而增强了实际应用于风电场操作的可行性。
**总结**
本文的主要贡献如下:
- **双分支预测框架与交叉注意力融合**:我们提出了DMoE-LLM,这是一种新的双分支架构,由一个时间序列分支用于建模领域特定的时间动态,以及一个大型语言模型(LLM)分支用于捕获上下文表示。两个分支通过交叉注意力融合机制集成,使时间特征能够选择性地关注LLM嵌入。与现有的单分支基于LLM的方法相比,所提出的设计明确地建模了互补的表示空间,并增强了特征交互。
- **稀疏专家混合解码器与混合专家设计**:我们设计了一种稀疏MoE解码器,它结合了一个共享专家来学习共同的时间模式,以及通过top-K路由激活的多个独立专家。这种设计能够在保持计算效率的同时,适应不同的风电情况,提供比传统密集解码器更好的可扩展性。
- **统一的多分辨率预测机制**:我们开发了一种多分辨率预测策略,使用专用输出头在多个时间范围生成预测。这种统一设计支持在单个模型内进行灵活的多时间范围预测,避免了单独训练特定时间范围模型的需要。贪婪调度算法进一步使得在推理时高效处理任意预测时间范围成为可能,而无需任何模型修改或重新训练。
**本文的其余部分组织如下**:第2节回顾了时间序列预测、用于时间序列的大型语言模型和专家混合架构的相关工作。第3节详细介绍了DMoE-LLM的方法论。第4节报告了实验结果并进行了分析。最后,第5节总结了本文并讨论了未来的研究方向。
**相关工作**
本节批判性地审视了现有的风力发电预测方法、用于时间预测的大型语言模型适应以及专家混合架构。我们系统地分析了它们的技术贡献和根本限制,为所提出的DMoE-LLM框架建立了理论和实践基础。
**方法论**
本节首先阐述了风力发电预测问题,然后详细介绍了所提出的DMoE-LLM框架。DMoE-LLM的整体架构如图1所示。
**实验**
本节对所提出的DMoE-LLM框架在风力发电预测基准测试中的表现进行了全面评估。我们首先描述了实验设置,包括数据集、基线和实现细节。然后,我们展示了DMoE-LLM与多个预测时间范围内的最先进基线方法之间的定量结果比较。
**结论与未来工作**
本文提出了DMoE-LLM,这是一种双分支框架,它结合了时间动态建模的时间序列分支和用于上下文表示学习的大型语言模型分支。通过交叉注意力融合,两个分支实现了有效的双向知识交换,而带有top-K路由的稀疏专家混合解码器通过条件计算提供了可扩展的模型容量。此外,具有自适应调度的多分辨率预测头允许...
**作者贡献声明**
冯星宇:概念化、方法论、软件、形式分析、初稿撰写、审稿与编辑、可视化、项目管理和监督。
郭德康:数据管理、调查、资源获取、验证、审稿与编辑。
叶明顺:监督、审稿与编辑。
**利益冲突声明**
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。