《Expert Systems with Applications》:Wavelet Mixture of Experts for Time Series Forecasting
编辑推荐:
基于小波变换与混合专家框架的多通道时间序列预测模型,提出WaveTS-B与WaveTS-M。前者通过正交可学习高通和低通滤波器实现时频分析,结合MLP处理高低频分量,有效捕捉周期与非平稳特征。后者创新性地引入通道聚类策略与MoE架构,通过门控机制动态分配多通道权重,在减少参数量的同时提升多通道依赖建模能力。在8个真实世界数据集上的实验表明,模型在精度和效率上均达到SOTA,特别是WaveTS-M在多通道场景下参数减少76%且MAPE降低12.3%。
周正|熊宇杰|张佳晨|夏春明
上海工程技术大学电子与电气工程学院,中国上海201620
摘要
时间序列预测领域正在迅速发展,最近的大规模Transformer模型和轻量级的多层感知器(MLP)模型表现出强大的预测性能。然而,传统的Transformer模型通常受到参数数量众多以及通过平滑处理捕捉数据中非平稳特征能力有限的限制。同样,MLP模型也难以有效处理多通道依赖性。为了解决这些限制,我们提出了一种新颖的轻量级时间序列预测模型WaveTS-B。该模型结合了小波变换和MLP,以在小波域中捕捉数据的周期性和非平稳特征。在此基础上,我们提出了一种通道聚类策略,该策略采用了专家混合(MoE)框架,并利用门控机制和专家网络来高效处理多通道依赖性。我们提出了针对多通道时间序列预测的高级模型WaveTS-M。通过对八个真实世界时间序列数据集的实证评估,表明我们的WaveTS系列模型在参数数量显著减少的情况下实现了最先进(SOTA)的性能。值得注意的是,WaveTS-M在多通道数据集上表现出显著改进,凸显了其有效性。我们的代码库可以从
https://github.com/X-Lab-CN/WaveTS获取。
引言
时间序列预测在各个领域都至关重要,因为准确的预测能够实现更详细的规划。随着深度学习技术的发展(LeCun, Bengio, & Hinton (2015)),出现了许多用于时间序列分析的工具,包括循环神经网络(RNNs)(Zhang, Zhong, Zhang, Wang, & Ng (2023))、图神经网络(GNNs)(Huang et al. (2023)和Transformer(Liu et al. (2024b))。许多时间序列具有内在的周期性(单个或多个周期),例如电能数据中的24小时周期,这种周期性会持续很长时间。此外,数据的非平稳性和通道相关性(例如可能随时间变化的天气模式)以及多种影响因素与随机因素的交织和干扰,对长期预测提出了挑战(D’Acunto, Di Lorenzo, Bonchi, Sardellitti, & Barbarossa (2024); Hristopulos (2024); Su, Liu, Sheu, & Wu (2024); Theocharous, Gregoriou, Sapountzis, & Kontoyiannis (2024); Wang, Wong, Rosa, Qian, & Wan (2022); Zhou, Guo, Xiong, & Xia (2024))。捕捉这些长期依赖性通常需要大量的历史数据,从而增加了模型的复杂性和参数数量,延长了训练和推理时间。在流行的基于Transformer的模型中,这个问题尤为明显,这些模型可能包含数百万个参数,随着输入长度的增加,效率会显著降低(Wu, Xu, Wang, & Long (2021); Zhou et al. (2022b))。
在这项工作中,我们提出了WaveTS系列模型WaveTS-B和WaveTS-M,这些模型是创新且高效的时间序列预测模型,利用小波域中的时频分析。WaveTS-M的架构分为三个阶段:首先通过正交的可学习高通和低通滤波器对序列进行初始变换,然后对得到的高频和低频成分进行下采样以缩短输入序列。随后,使用门控网络和专家网络对预测结果进行加权组合(Jacobs, Jordan, Nowlan, & Hinton (1991); Shazeer et al. (2017); Xue et al. (2022))。最终预测结果是通过组合这些时域信号获得的。我们的方法有三个主要优点:(i) 使用小波变换的一个关键动机是其具备联合时频定位的能力。与基于傅里叶的方法不同,后者会丢失时间信息,这种特性允许变换自适应地将时间序列分解为近似(低频)和详细(高频)成分。这个过程是一种可逆的无损下采样,其中近似值保留了全局模式(如周期性),而细节则捕捉了局部扰动和非平稳噪声。这种高效且语义明确的分解为后续建模奠定了理想的基础。(ii) 模型中使用的矩阵乘法被简化为序列的简单加法和减法,大大减少了处理时间序列所需的时间。这种简化方法为开发不牺牲分析深度的轻量级模型奠定了基础。(iii) 使用通道聚类策略来处理多通道数据相关性不仅防止了模型复杂性的显著增加,还增强了模型的表达能力。
尽管WaveTS系列模型相对简单,但它们在多个领域的公开可用真实世界数据集上始终能够达到最先进(SOTA)的性能。如图1所示,WaveTS-B在预测性能和效率方面表现出优势。总体而言,我们的贡献总结如下:
•我们提出了WaveTS-B,这是一种基本而稳健的时间序列预测模型,它使用专用滤波器执行小波变换。这种变换将时间序列分解为高频和低频成分,使模型能够专注于对预测最重要的方面。随后,模型利用MLP的非线性变换能力处理这些成分。这种双重方法有效地提取和利用了数据的周期性和非平稳特征,提高了模型的预测性能。
•我们提出了一种通道聚类策略,该策略结合了MoE框架来增强WaveTS-B模型,从而形成了先进的多通道时间序列预测模型WaveTS-M。该策略通过门控网络为不同专家分配每个通道的重要性权重,每个通道的权重分配不是固定的,而是概率性的。这种灵活性确保了每个通道的信息可以被多个专家利用,允许专家根据其在不同情境下的相对贡献动态组合通道。这种自适应方法显著提高了模型在处理多样化和复杂数据场景时的多功能性和效率。
•我们提出的WaveTS系列方法在真实世界数据集上实现了最先进的预测性能,并且在参数数量上具有优势。
相关工作
相关工作
已经开发了许多用于时间序列预测的深度学习方法,每种方法都有其自身的优势和挑战。基于RNN的模型(如LSTNet(Lai, Chang, Yang, & Liu (2018))在预测范围增加时面临计算成本上升和误差累积的问题。最近的RNN变体继续探索更高效的内存机制;例如,Xiang, Li, Huang, Luo, & Qin (2024)设计了一种用于剩余寿命预测的差分加权信息存储门。
方法
在本节中,我们全面详细地介绍了所提出的WaveTS系列模型。这些模型涉及从时域到小波域的关键变换,有助于从时间和频率的角度深入分析时间序列数据。这种变换允许有效地剖析数据的内在结构和模式,这些结构和模式在时域中可能并不明显。此外,这些模型还采用了通道
实验
我们使用八个真实世界的时间序列基准数据集进行了全面的实验分析,以评估WaveTS系列模型的性能和计算效率。
数据集。所有数据集都是来自不同领域的公开可用且广泛使用的真实世界数据集,主要包括电力、交通、天气、汇率和ETT(Wu et al. (2021)使用的数据集)。
基线。为了全面评估WaveTS系列模型的性能和效率,我们进行了比较
高频和低频成分的分析
小波分解将时间序列分为高频和低频成分,其中低频部分捕获主要序列信息,高频部分捕获局部细节。然而,逆变换会引入一些重建误差。为了验证这一点,我们分别从模型的高频和低频部分移除了线性层,并用小波逆变换替换了域变换器,以创建一个
结论
在本文中,我们提出了一种新的时间序列预测模型系列WaveTS,该系列模型将小波变换与现代神经架构相结合,实现了高准确性和计算效率的协同作用。我们的工作在技术创新、架构设计、实证验证和可解释性方面做出了几项关键贡献。首先,我们的基础模型WaveTS-B提出了一种动态融合机制,超越了传统的小波分解方法
作者声明
周正:概念化、方法论、形式分析、调查、撰写 - 原始草案。熊宇杰(通讯作者):撰写 - 审稿与编辑、监督。张佳晨:软件、验证、数据管理、可视化。夏春明:资源、撰写 - 审稿与编辑、监督。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。