提高智能电网中长期预测的稳定性：一种混合Mamba-LSTM-Attention框架陈福生（Fusheng Chen）、雷崇福（Chong Fo Lei）、郭特（Te Guo）和楚启伟（Chiawei Chu）

《Energies》：Enhancing Long-Term Forecasting Stability in Smart Grids: A Hybrid Mamba-LSTM-Attention Framework Fusheng Chen, Chong Fo Lei, Te Guo and Chiawei Chu

【字体：大中小】 时间：2026年04月14日 来源：Energies 3.2

编辑推荐：

　　摘要准确的多变量长期时间序列预测（LTSF）对智能电网的运行至关重要。然而，非平稳分布的频繁变化常常会在传统架构中导致误差的累积。本研究提出了Mamba-LSTM-Attention（MLA）框架，这是一种旨在提高预测稳定性的分布感知架构。该框架整合了可

　　摘要准确的多变量长期时间序列预测（LTSF）对智能电网的运行至关重要。然而，非平稳分布的频繁变化常常会在传统架构中导致误差的累积。本研究提出了Mamba-LSTM-Attention（MLA）框架，这是一种旨在提高预测稳定性的分布感知架构。该框架整合了可逆实例归一化（RevIN）技术来中和统计漂移。为了解决计算瓶颈问题，该架构使用了线性时间的选择性状态空间模型（Mamba）来捕捉全局趋势动态，并与单层门控长短期记忆（LSTM）单元结合，以模拟局部非线性残差。终端信息瓶颈结构限制了跨步误差的传播。在标准ETT和Electricity基准测试中的实证结果表明，在精度和稳定性之间存在权衡。通过优先考虑结构韧性，MLA框架在高度波动的数据集上限制了误差的累积，在T = 96的时间范围内，ETTh2和ETTm2的均方误差（MSE）分别为0.210和0.128。这种结构瓶颈本质上平滑了高频周期性模式，但在ETTh1和ETTm1等平稳基准测试中导致绝对精度较低。最终，该架构为智能电网中的非平稳异常跟踪建立了一个计算效率高且结构稳定的基线。

1. 引言
准确的多变量长期时间序列预测（LTSF）仍然是现代智能电网中动态削峰、异常检测和可靠能源调度的重要操作前提[1]。随着工业数据采集规模的扩大，预测模型越来越需要解码扩展预测范围内的深度周期性。然而，现实世界的电力负荷序列经常受到极端气象事件和突然的社会经济波动的影响，导致显著的分布非平稳[2,3,4,5]。这种时间和特征层面的波动对预测架构的结构鲁棒性提出了重大挑战。传统的循环网络和早期的深度学习范式在面对这种分布外的异常负荷峰值时，会表现出感受野衰减和累积的自回归误差，使它们不适合进行稳定的长期电网监控[6,7]。除了宏观层面的电网调度外，精确的负荷预测还直接影响关键基础设施的运行完整性，特别是电力变压器。异常负荷峰值会引发显著的热应力和机械应力，加速内部绝缘层的退化。因此，强大的预测模型对于主动监测设备状况、防止持续过载和避免系统范围内的硬件故障至关重要[8]。尽管基于Transformer的架构通过自注意力机制扩展了全局感受野，成为主导范式[9,10]，但其二次计算复杂度（O(??2)）在长时间的历史回顾中引入了巨大的内存瓶颈[11,12,13,14]。此外，最近的主流策略将变量视为孤立序列以减少噪声，但大大牺牲了模拟协同多变量相互作用的能力。为了避免这些计算限制，结构化状态空间模型（SSMs），特别是Mamba架构，通过一种选择性的硬件感知扫描机制实现了线性复杂度（O(??)）[15,16]。Mamba架构隔离了宏观趋势动态，保持了关键的长距离状态，并且通常与Transformer的性能相当或超过[17,18]。然而，其在LTSF中的应用仍处于探索阶段[19,20]。仅依赖线性时间的SSMs会牺牲捕捉即时非线性局部波动所需的高频归纳偏差[21,22]。此外，如果没有显式的分布感知归一化机制，标准状态空间架构对波动性电网数据中固有的统计漂移非常敏感。

为了弥合线性时间可扩展性、非平稳漂移抑制和高保真局部细化之间的结构差距，本研究提出了一种分布感知的混合架构：Mamba-LSTM-Attention（MLA）框架。MLA的架构核心是一个渐进的“全局到局部”频率解耦特征演化流程。首先，集成可逆实例归一化（RevIN）模块[4]来对称地对齐移动的输入分布，在表示学习之前中和统计漂移。随后，部署线性时间的Mamba模块作为基础的全局骨架来编码广泛的低频周期性[23]。为了补充这种宏观尺度提取，级联一个单层门控LSTM来恢复和细化高频瞬态残差，而不会引入多余的参数化[24]。然后，多头注意力机制动态地重新加权这些多尺度表示[25]。更重要的是，该框架不是使用标准的顺序解码器，而是施加了一个终端信息瓶颈——仅提取最终的隐藏状态——从而直接投影预测范围，从而在结构上限制了跨步误差的传播路径。

MLA框架整合了这些结构组件。在四个标准ETT基准测试中的结果表明，在点精度和跨范围稳定性（C??????）之间存在架构权衡。终端信息瓶颈限制了局部波动的传播。这种配置优先考虑了长期鲁棒性而非短期点精度。该机制在波动性下减轻了误差累积。该框架在T = 96的时间范围内，在非平稳的ETTh2和ETTm2数据集上实现了0.210和0.128的MSE。这种结构重点限制了捕捉高频周期性模式的能力，如在ETTh1和ETTm1基准测试中所观察到的。消融指标证实，分布对齐和频率解耦的表示增强了框架的鲁棒性。MLA架构为智能电网中的非平稳结构变化建立了一个计算效率高的基线。

2. 文献综述
2.1. 长期时间建模的演变
从传统的统计方法（如ARIMA和SARIMAX[26,27]）到深度学习的转变从根本上重塑了时间序列预测。虽然早期的统计模型无法模拟非线性动态[27]，但像LSTM和GRU这样的循环网络通过内部门控机制捕捉了短期依赖性[9,10,28,29]。然而，它们在长期时间序列预测（LTSF）中固有地表现出“感受野衰减”[6]。为了解决这个问题，注意力机制[9,28]和基于Transformer的架构出现，以并行捕捉全局时间上下文[14]。像Informer[10]和Autoformer[14]这样的模型在历史上建立了性能基准。然而，标准Transformer的核心限制在于其二次计算复杂度（O(??2)），在长时间的历史回顾中引入了巨大的内存瓶颈[9,16]。为了规避这些限制，结构化状态空间模型（SSMs）重新获得了重视。Mamba架构利用选择性状态空间机制实现了线性复杂度（O(??)），同时在长序列任务中与Transformer的性能相当[17,18]。最近的研究开始探索结合LSTM、Attention和Transformer的方法，以平衡全局感知和局部细化[2,19,20,25]。在LTSF的背景下，像Time-Mamba[30]这样的模型表明SSM框架可以有效地编码广泛的依赖性。然而，Mamba主要提取宏观周期性趋势，无意中简化了捕捉短期局部波动所需的细粒度归纳偏差。

2.2. LTSF中的多变量表示
除了纯粹的时间感受野限制外，多变量LTSF引入了“时空二元性”的复杂性，要求模型解码不同通道之间的耦合动态[12]。早期的自回归或CNN-RNN架构，如LSTNet[11]和DeepAR[13]，在扩展的时间范围内面临累积误差传播的问题。目前，关于跨通道表示的争论占据了主导地位。Zeng等人引入了DLinear[31]，认为简单的线性映射比复杂的嵌入更能保持通道特定的时间顺序。随后，Nie等人在PatchTST[32]中提出了Channel-Independence（CI）策略，将变量视为孤立序列以减少噪声，尽管牺牲了模拟协同多变量相互作用的能力。为了克服CI的局限性，“Channel-Mixing”范式出现了。Crossformer[33]使用两阶段注意力机制处理跨维度依赖性，而iTransformer[34]将整个变量视为离散令牌来学习全局相关性。尽管有MTGNN[35]、TSMixer[36]、TimesNet[37]以及基于MLP/CNN的模型如TiDE和SCINet[38]等替代结构解决方案，但在不增加二次计算开销的情况下实现高维表示保真度仍然是一个未解决的挑战。

2.3. 非平稳时间序列预测和智能电网应用
除了上述的结构表示挑战外，智能电网LTSF还受到非平稳分布变化的进一步影响，这是一个以高波动性和复杂多尺度依赖性为特征的关键问题[1,7]。现实世界的电力负荷经常受到异常的影响，导致时间均值和方差的变化。标准模型假设数据是独立同分布的，因此在面对分布外的负荷峰值时会导致误差累积。有效的负荷预测需要精确处理高频残差以及全局趋势建模[39]。为了应对统计漂移，最近的文献专注于分布感知预测。Liu等人提出了非平稳Transformer[40]，整合了去平稳注意力来恢复时间可区分性。更根本的是，Kim等人引入了可逆实例归一化（RevIN）[4]，这是一种对称变换，可以去除并恢复实例级别的统计指标。虽然RevIN减轻了漂移，但其在线性时间SSMs中的集成以实现分布变化免疫和局部精度尚未被探索。受这些领域特定需求的启发，所提出的MLA架构中和了分布变化，并建立了“全局到局部”的瓶颈，系统地弥合了计算可扩展性和电网预测稳定性之间的差距。

为了解码复杂的负荷动态，当代研究探索了多种架构范式。最近的应用采用了异构的多专家学习方法来提取互补特征，用于低频非侵入式负荷监控[41]。MLA架构通过解耦频率域来适应这一专门的特征提取概念。此外，最近的进展引入了零样本时间序列基础模型，如Chronos[42]和TimeGPT[43]。这些架构利用大规模预训练来实现广泛的泛化能力。然而，智能电网运行要求低延迟执行和局部边缘部署。大规模基础模型引入了计算开销和数据隐私限制。MLA框架建立了一个轻量级的、专门的替代方案。它直接中和了非平稳统计漂移，而不需要数十亿参数的架构。

表1展示了所提出的MLA架构与最近基线方法之间的明确比较。像PatchTST这样的当代模型使用通道独立性来减少噪声，但它们放弃了捕捉跨通道相互作用的能力。基于SSM的架构如Time-Mamba有效地编码了全局时间依赖性，但由于缺乏专门的残差细化，无意中平滑了高频局部波动。此外，现有模型大多假设输入是平稳的，使它们容易受到统计漂移的影响。MLA框架直接克服了这些结构缺陷。通过集成可逆实例归一化（RevIN）进行分布对齐，并级联单层LSTM进行高频提取，MLA提供了一个专门为非平稳多变量预测设计的稳健解决方案。

3. 方法论
3.1. 整体架构
图1展示了所提出的Mamba-LSTM-Attention（MLA）框架的总体拓扑结构，该框架本质上是一个渐进的流程，用于解决非平稳分布变化和跨范围预测退化问题。该架构从去平稳化阶段开始，其中将可逆实例归一化（RevIN）模块应用于历史多变量负荷序列?? ∈???×??。该模块提取并保留了时间均值??和方差??2，从而将原始输入转换为标准化空间??????????，以中和统计漂移。在此分布对齐之后，标准化序列被投影到一个高维空间，并由频率解耦的时间骨架处理。在这个层次结构中，选择性状态空间模型（Mamba）作为基础宏观尺度趋势提取器，以线性计算复杂度编码广泛的长期依赖性。为了补充这种全局编码，随后部署了一个单层门控LSTM来提取即时非线性动态并细化高频局部残差。然后，多头注意力机制动态地重新加权这些细化特征以捕捉关键的跨窗口相关性。因此，为了防止高频自回归误差在扩展时间范围内的累积，该架构通过仅提取最终的隐藏状态???来施加信息瓶颈。多层感知器将这个瓶颈状态直接映射到标准化的未来轨迹^?????????? ∈???×??。在最后阶段，执行对称的RevIN反归一化，重新注入保留的统计参数（??,??2），以恢复最终预测目标^??的精确物理尺度和幅度。

3.2. 可逆实例归一化（RevIN）用于分布变化
现实世界的电力负荷序列经常受到环境和社会经济异常的影响，导致非平稳分布变化。为了减轻由此产生的统计漂移，MLA架构在表示学习之前集成了可逆实例归一化（RevIN）模块。给定一个输入序列实例?? ∈???×??，该模块计算时间均值?? ∈???和方差??2 ∈???。然后对实例进行标准化：
??????????=?????√??2+??⊙??+?? (1)
其中??是一个数值稳定的常数，??,?? ∈???表示旨在保留维度特定方差属性的可学习仿射参数。在提取时间动态并将其投影到预测范围??之后，对中间预测^?????????? ∈???×??执行对称的反归一化操作：
^??=(^?????????????)????√??2+??+?? (2)
这种逆变换恢复了目标变量的原始物理尺度和非平稳幅度，确保了在异常电网需求下的稳定梯度传播和限制了标准深度学习架构中常见的误差累积。

3.3. Mamba状态空间模型
为了克服标准Transformer架构的二次计算开销（O(??2)，MLA框架采用了选择性状态空间模型（Mamba）来编码广泛的长期依赖性。Mamba模块通过一个潜在状态h(t)将连续时间信号x(t)参数化为响应y(t)，该状态由线性常微分方程（ODEs）控制。为了处理离散的电气负载令牌，应用了零阶保持（ZOH）[15,16]离散化方法。连续演化矩阵??和??通过时间尺度参数Δ转换为它们的离散对应物A和B：
ˉ??=??????(Δ??) (3)
ˉ??=(Δ??)?1(??????(Δ??)???)?Δ?? (4)
因此，连续ODEs被重新表述为自回归离散递归：
???=ˉ??????1+ˉ?????? (5)
????=????? (6)
通过集成硬件感知的并行扫描，这种离散递归实现了??2(??)线性时间复杂度的经验全局感受野。该模块捕捉了宏观时间依赖性。通过其选择性状态机制，它系统地隔离了重要的长期周期性趋势，并在局部细化之前减少了无信息的随机噪声。

3.4 LSTM单元
虽然Mamba编码器有效地建立了宏观上下文基础，但它本质上平滑了对精确负载预测至关重要的瞬态波动。为了重新捕获这些即时的非线性动态，MLA架构将Mamba输出级联到一个单层门控长短期记忆（LSTM）网络中。LSTM单元用于针对局部波动进行调节。它通过紧密耦合的门控机制来调节局部信息流，绕过了之前状态空间模块已经满足的长距离保留要求。在每个离散时间步长??，输入序列通过输入门????、遗忘门????和输出门????进行处理。单元状态????和隐藏状态???的时间演化数学上表示如下：
????= ??(??????????+??????1+????)
????= ??(??????????+??????1+????)
????=???????(??????????+??????1+????)
????= ??(????????+??????1+????)
????= ????⊙?????1+????⊙????
???= ????⊙???????(?????) (7)
通过将此操作限制在单个参数层，强制实现了频域解耦。因为之前的Mamba模块已经编码了宏观长距离依赖性，部署多层LSTM将引入重叠的时间感受野和冗余的参数化。通过仅使用一层，有意限制了递归能力，迫使LSTM单元专注于即时的高频残差。这种最小配置建立了一个互补的特征提取流程，同时保持了框架的线性时间计算效率。

3.5 多头注意力机制
为了动态对齐和重新加权精细化的多尺度特征，LSTM表示随后被投影到多头注意力机制中。该模块通过将时间序列映射到不同的Query (??)、Ke (??)和Valu (??)矩阵来计算跨窗口相关性[9]。注意力权重通过缩放点积操作计算，表示为
??????????2????????2(??,??,??)=??????????????(??????√????)?? (8)
其中????表示每个注意力头的维度。这种并行重新加权强调了历史回顾窗口内的关键瞬态变化。然而，为了将这种序列级表示转换为多步未来轨迹而不产生累积的自回归误差，架构实现了一个结构信息瓶颈。网络不是映射整个时间序列，而是从注意力输出矩阵中隔离出最终的聚合隐藏状态???。之前的多头注意力模块在此瓶颈之前计算了跨通道和跨窗口相关性。因此，最终状态???作为一个完全上下文化向量，包含了协同的多变量交互，保持了关键的跨通道保真度。随后的多层感知器利用这个隔离的瓶颈向量直接解码标准化的多步预测范围??????，从而在结构上限制了在长时间序列解码中常见的误差传播。

3.6 架构集成和优化策略
MLA框架被设计为一个端到端可微分架构，将多变量历史序列??映射到未来轨迹^??。结构拓扑遵循渐进式特征演化流程：输入序列首先通过RevIN模块进行标准化，以中和分布偏移，然后通过嵌入层进行维度对齐。表示随后由级联的Mamba-LSTM-Attention主干处理。为了防止在扩展的预测范围内积累误差，架构通过仅从注意力机制中提取最终的聚合隐藏状态来施加信息瓶颈，然后通过多层感知器进行投影，并通过RevIN进行反规范化以产生最终预测。
为了确保最佳的训练动态并最大化参数效率，超参数空间使用树结构Parzen估计器（TPE）贝叶斯优化[5]进行了系统调整，而不是传统的网格搜索。基于TPE的收敛性，隐藏维度被确定为128，并且使用一致的序列回顾窗口?? = 96来评估预测范围?? ∈{96,192,336,720}。为了减轻深度混合结构中固有的过拟合风险，在残差连接和注意力权重中均匀应用了Dropout正则化?? = 0.3。
训练过程采用自定义的Huber损失目标[44]来惩罚预测异常值。数学公式定义为：
????(??,^??)=?{ { { { {?12(???^??)2??????∣???^??∣≤????3|???^??|?12??2??????????????} (9)
其中??表示真实值，^??表示预测值，过渡阈值设置为?? = 1.0。这个分段函数减少了梯度对异常负载尖峰的敏感性。网络参数使用AdamW优化器进行更新，权重衰减为3.74 × 1??，学习率为2.84 × 1??，以确保在未见过的网格数据上的鲁棒泛化。

3.7 协同机制和理论依据
MLA架构的经验有效性从根本上基于其分层的“全局到局部”特征演化流程。如图2所示，这种渐进式提取过程可以通过频域视角进行功能解释。具体来说，Mamba模块提取了扩展范围内的主导宏观趋势。在此宏观基础上，单层门控LSTM模型模拟了选择性状态机制固有平滑的局部非线性瞬态残差。在这种解耦之后，多头注意力机制应用自适应重新加权来动态融合这些多尺度信号。值得注意的是，MLA框架不是使用传统的迭代自回归解码器，而是通过单点线性投影来整合这些特征。这种结构信息瓶颈不可避免地牺牲了一定程度的短期精度，以增强跨范围稳定性。通过仅提取最终隐藏状态，这个瓶颈限制了微观波动的传播。它抑制了通常由长时间序列解码引起的指数级误差积累，从而优先考虑长期结构稳定性而非即时的点精度。

图2. MLA框架内分层“全局到局部”特征演化机制的频域可视化：(a) 宏观尺度：Mamba模块作为??2(??)趋势提取器，从输入中隔离出主导的周期性成分。(b) 微观尺度：单层LSTM针对局部残差，捕获瞬态非线性波动。(c) 合成：多头注意力机制和结构瓶颈融合这些解耦的信号，产生与真实值对齐的预测轨迹，同时限制误差积累。

4. 实验结果和分析
4.1 基准数据集和数据预处理
为了评估所提出的MLA架构，对四个标准的多变量基准数据集ETTh1、ETTh2、ETTm1和ETTm2进行了实证实验。这些数据集记录了不同时间粒度（一小时和十五分钟）的动态电气负载指标，表现出不同程度的周期性和非平稳结构变化。尽管ETT基准中的主要目标变量是变压器油温，但它作为宏观电网负载动态的一个高度可靠的代理。正如ETT数据集的原始设计者[9]所确定的，变压器温度直接反映了底层电网调度压力和设备健康状况。这种经验替代得到了电力变压器热力学物理的支持，其中内部温度波动主要由与活动电气负载电流的平方成正比的铜损耗驱动[45]。因此，在ETTh2和ETTm2序列中观察到的非平稳结构变化反映了实际电网调度需求的波动性，使得这些数据集成为评估架构对现实世界负载异常鲁棒性的强大测试平台。为了确保与现有基线的公平实证比较，使用标准的年代数据集分割协议来评估所提出的框架。数据集序列被划分为训练集、验证集和测试集，比例为7:1:2。验证集专门用于调整超参数并选择最佳模型检查点，以防止时间数据泄露。模型的预测性能使用均方误差（MSE）作为主要优化目标来惩罚极端预测异常值，同时使用平均绝对误差（MAE）来衡量预测偏差的平均物理幅度。此外，为了量化框架对范围扩展的结构鲁棒性，引入了跨范围变异系数（??????）作为核心稳定性指标，表示为
??????=????????????????×100% (10)
其中????????和????????分别代表四个目标范围（?? ∈{96,192,336,720}）上相应MSE值的标准差和平均值。较低的??????表示跨步骤预测的一致性，这是可靠长期电网调度的一个关键前提。使用标准指标评估离散时间点的绝对偏差。然而，这些离散值并不能全面反映时间退化轨迹。因此引入了跨范围变异系数（??????）来评估跨步骤预测的一致性。??????被定义为一个条件评估指标。只有当绝对MSE保持在操作上可行的阈值内时，相对稳定性才被认为是有价值的。当相对稳定性和绝对精度之间存在冲突时，会忽略具有较大绝对误差的模型结果，因为尽管它们的方差较低，但产生的预测是不可用的。基准数据集的统计描述总结在表2中。

4.2 实验设置和超参数
实证评估将所提出的MLA框架与代表不同架构范式的基线模型进行了比较。所有基线架构都在本地进行了复制，以确保严格等效的比较。具体来说，Informer、Autoformer、PatchTST和iTransformer的实现直接来自清华大学时间序列库。S-Mamba架构来自Wang等人[46]提供的官方参考仓库。这种有针对性的选择涵盖了预测网络的主要进化分支。它提供了结构上多样的背景来验证所提出的框架，无需编译详尽的次要架构变体列表。所有比较实验都在配备了NVIDIA RTX 4090 GPU的统一硬件平台上运行。为了确保实证可重复性，全局随机种子在所有执行环境中固定为42。超参数配置与通过树结构Parzen估计器（TPE）贝叶斯优化[5]确定的最佳参数空间一致，详见第3.6节。具体来说，历史回顾窗口固定为96，并通过线性嵌入层将原始输入投影到128维连续空间。在频率解耦的主干中，Mamba状态维度为64。高频残差提取使用单层门控LSTM，而跨窗口交互使用8个并行注意力头。为了减轻过拟合，在残差连接、注意力机制和全连接预测头中均匀应用了0.3的Dropout率。网络权重使用AdamW优化器进行优化，学习率为0.000284，权重衰减为3.74 × 1??，批量大小为64。训练配置建立了15个时代的固定计算预算。为了确保最佳模型选择而不会过早终止，每个时代结束时持续监控验证损失。每当验证误差达到新的最小值时，系统会系统地保存模型检查点。在完成整个15个时代的预算后，从保存的检查点加载最佳网络权重以执行最终测试阶段。这种配置确保了在Huber损失目标下的稳定收敛，其操作标准阈值为[44]。表3总结了详细参数。

4.3 实验结果和讨论
与最近基线的定量评估揭示了点精度和跨范围稳定性之间的权衡（表4）。MLA架构在以分布偏移为特征的非平稳环境中产生了较低的预测误差。在ETTh2数据集上，模型在T = 96的时代建立了0.210的MSE。这个结果优于像PatchTST（0.342）这样的通道独立模型以及多变量架构，包括iTransformer（0.297）和S-Mamba（0.296）。该框架在ETTm2数据集上也复制了这一性能，实现了比iTransformer基线（0.180）更低的绝对MSE（0.128）。

表4. 所提出的MLA框架和基线模型的预测性能。所有基线架构都在本地进行了复制。指标是根据在相同硬件配置和标准序列数据集分割协议（7:1:2）下进行的独立实验得出的。为了评估实际智能电网运营的有效性，实证分析扩展到了电力数据集。该数据集展示了321个互连节点上的消费者驱动的非平稳性。像iTransformer和S-Mamba这样的多变量模型在这个数据集上优先考虑短期精度，在T = 96时分别实现了0.148和0.139的初始均方误差（MSE）。然而，它们在更长的时间范围内表现出误差累积，导致跨时间范围的变异系数（Coefficient of Variation，???????）指标分别为18.79%和16.24%。相比之下，MLA框架限制了自回归误差的传播，在321维网络上记录的结构退化率为8.63%（???????）。通过施加终端信息瓶颈，该架构放弃了边际短期振幅跟踪，以换取长期预测的一致性。相反，ETTh1和ETTm1序列表现出具有高频周期模式的平稳特性。MLA框架在这些基准测试中的绝对精度较低。这种性能差异源于序列统计特性与架构约束之间的相互作用。终端信息瓶颈平滑了细粒度周期细节，以优先考虑长期稳定性。虽然这种结构瓶颈防止了在结构变化期间的误差累积，但它限制了捕捉峰值振幅的能力，而这些峰值振幅对于最小化周期序列的误差是必要的。此外，尽管像PatchTST这样的模型在这些平稳数据集上实现了较低的相对???????，但它们的绝对误差基线较高。不准确的基线预测轨迹对实际调度操作的实用性有限。MLA框架作为工业智能电网的专用架构，在波动性条件下优先考虑稳定的预测轨迹，而不是边际精度提升。

4.4 消融研究
消融研究评估了每个架构组件在非平稳ETTh2数据集和高平稳ETTh1数据集上的单独贡献。表5详细展示了这两种环境下的不同性能轨迹。表5. ETTh2和ETTh1数据集的消融研究结果。来源：（作者自己的工作）。在ETTh2数据集上，完整的MLA框架实现了0.210的最优MSE。移除RevIN模块后，MSE增加到0.431。这一结果证实了对称分布对齐在结构变化下保持了梯度稳定性。指标表明时间骨架内部存在互补关系。绕过多头注意力机制（Mamba-LSTM变体）会破坏跨窗口特征融合，使MSE增加到0.223。替换Mamba编码器（LSTM-Attention变体）后，MSE增加到0.218。消除LSTM单元（Mamba-Attention变体）后，MSE为0.227。这些指标表明，在非平稳环境中，单层LSTM的局部建模与Mamba模块的宏观趋势提取同样重要。相反，在平稳的ETTh1数据集上，移除架构组件对性能的影响很小。绕过Mamba模块（LSTM-Attention变体）仅使MSE增加了0.88%（从0.566增加到0.571）。消除LSTM单元（Mamba-Attention变体）使MSE增加了2.83%（从0.566增加到0.582）。相比之下，在波动的ETTh2数据集上，移除这些组件分别使MSE增加了3.81%和8.10%。这种实证差异验证了架构设计。级联的Mamba-LSTM拓扑结构和RevIN模块作为抗漂移机制，旨在中和非平稳异常。在缺乏结构变化的高度规则环境中，这些组件的先进抗漂移能力并未完全发挥。完整架构的性能与其简化变体相当。这些结果验证了精度与稳定性之间的权衡。它们表明MLA框架从根本上优化了在高电网波动性下的预测鲁棒性。

4.5 定性评估与可视化
在T = 96时间点对五个评估数据集的预测轨迹提供了精度与稳定性权衡的直观验证（图3）。这些可视化结果按顺序（a–e）对应于ETTh1、ETTh2、ETTm1、ETTm2和Electricity，展示了频率解耦框架中的不同适应性。图3. 跨时间范围预测轨迹跟踪 ?? =96：(a) ETTh1：具有保守振幅重建的相位对齐。(b) ETTh2：在波动区间内跟踪非平稳变化；(c) ETTm1：宏观趋势锚定和高频方差的衰减。(d) ETTm2：在U形反转期间的宏观趋势跟踪。(e) Electricity：在消费者驱动的非平稳变化下抑制自回归误差传播。非平稳序列展示了架构捕捉到的结构变化。在ETTh2数据集（图3b）上，标准化电力负载在突出显示的区域（时间步长40–60）内发生分布变化。模型在此期间保持相位对齐并跟踪振幅变化。ETTm2序列同样显示了对整体U形恢复的跟踪（图3d）。此外，在动态的Electricity数据集（图3e）上也跟踪了主要的结构波动。这种跟踪行为证实了RevIN和LSTM模块在分布变化期间建模非线性残差的能力。相反，ETTh1和ETTm1轨迹展示了信息瓶颈的运营效果，优先考虑宏观趋势而非高频方差。在周期性的ETTh1序列（图3a）上，在对边际高频尖峰进行保守振幅平滑的同时实现了一致的相位对齐。在ETTm1的15分钟采样分辨率下，微观波动被平滑，输出了一个稳定的宏观基线。这种结构设计限制了在长时间范围内的自回归误差累积。跨数据集的可视化分析证明了该架构在工业电网运营中平衡了高频噪声抑制与瞬态变化跟踪。

4.6 计算效率分析
计算效率分析直接来源于上述的局部复制过程。所有基线模型和提出的MLA框架都在相同的硬件约束下进行了评估。计算基准量化了评估架构的硬件占用情况（表6）。实证评估在单个NVIDIA RTX 4090 GPU上执行，配置相同（回望窗口96，批量大小64）。标准Transformer架构产生了大量的运营开销。Autoformer每个周期需要4.31秒。PatchTST将训练时间缩短至3.49秒，但由于其通道独立的补丁机制，消耗了1602.87 MB的峰值内存。iTransformer解决了这一内存需求，通过使用维度反转，它将峰值内存分配限制在161.91 MB，尽管每个周期需要更长的序列处理时间6.17秒。表6. 不同架构的计算效率比较。在单个NVIDIA RTX 4090 GPU上评估（回望窗口96，批量大小64）。状态空间架构提供了更快的运营选择。纯状态空间基线S-Mamba每个周期需要2.69秒和147.11 MB的峰值内存。提出的MLA框架每个周期的执行时间为1.69秒，峰值内存分配为175.99 MB。MLA框架的简化计算图比S-Mamba的双向扫描机制执行得更快。在Mamba主干之后级联单层LSTM引入了28.88 MB的内存开销，但避免了标准注意力网络常见的内存饱和问题。这些运营指标证实了计算效率、逐点精度和跨时间范围稳定性之间的权衡。标准注意力机制在平稳序列上优先考虑短期精度，但牺牲了硬件效率。MLA架构将二次注意力计算限制在最后的瓶颈阶段。这种配置有意限制了捕捉高频周期模式的能力，导致在ETTh1等平稳数据集上产生较高的逐点误差。然而，这种结构约束限制了指数误差的累积，并确保了在非平稳变化下的稳定预测轨迹。MLA框架为波动的工业电网部署提供了资源高效的基线。

4.7 超参数敏感性分析
超参数敏感性分析评估了MLA架构在TPE优化阶段的结构鲁棒性（表7）。该评估监测了LSTM层数量、学习率、隐藏维度和丢弃率对验证MSE的影响。表7. 来自实证TPE优化试验的超参数敏感性分析。该架构对循环层的数量表现出结构敏感性。使用单层LSTM层的配置实现了最优的MSE 8.59。将循环深度增加到三层后，MSE增加到9.68。这一实证惩罚验证了将LSTM限制为单层瞬态提取器的架构约束。模型同样对学习率表现出高敏感性。优化轨迹在2.84 × 10?4时达到最优收敛。偏离搜索边界——例如降低到1.1 × 10?5或超过8.5 × 10?4——会破坏梯度稳定性，并使MSE增加到8.98以上。相反，该框架在隐藏维度和丢弃率方面表现出稳健的稳定性。模型在不同隐藏维度下保持稳定的MSE值（128时为8.59，512时为8.66）。当丢弃率在0.1到0.4之间变化时，MSE也有轻微变化（MSE范围从8.59到8.75）。这种对嵌入维度的验证韧性以及正则化证实了核心假设。预测精度来源于频率解耦的结构设计，而不是高维参数的记忆。

5. 结论与未来工作
本研究解决了在多变量时间序列预测中建模非平稳分布变化和减轻长期误差累积的挑战，适用于智能电网。我们提出了Mamba-LSTM-Attention（MLA）框架，该框架围绕渐进的频域特征演化流程设计。集成RevIN模块可以中和统计漂移。此外，线性时间Mamba模块与单层门控LSTM之间的架构解耦提取了宏观趋势和瞬态残差。在基准数据集上的评估揭示了由模型终端信息瓶颈控制的精度与稳定性之间的权衡。在非平稳环境中，MLA架构展示了预测稳定性。该模型在ETTh2和ETTm2数据集上分别实现了0.210和0.128的MSE。相反，这种结构瓶颈在牺牲捕捉细粒度周期组件的同时优先考虑了长期稳定性。因此，在ETTh1和ETTm1等平稳数据集上，该框架的绝对精度较低。然而，这种架构约束限制了在负载异常期间的误差累积。MLA框架为工业电网调度提供了计算效率高的基线，适用于结构变化。为了解决周期性场景中的适应性约束，未来的研究可以探索自适应的序列到序列（Seq2Seq）解码路径和可学习的并行特征门控。这些机制旨在在保持非平稳鲁棒性的同时恢复周期性归纳偏差。

热点排行