面向时间序列预测的TSMixer专家混合模型

《Biomimetics》:Mixture of TSMixer Experts for Time Series Forecasting

【字体: 时间:2026年06月17日 来源:Biomimetics 3.9

编辑推荐:

  随着近期多层感知机(MLP)混合模型在时间序列预测中取得最先进性能,将每个MLP混合器建模为混合模型中的独立专家有望扩展模型的表示能力,使每个专家能够根据时变输入被激活。然而,将MLP混合器扩展为专家混合(Mixture-of-Experts, MoE)架构会

  
随着近期多层感知机(MLP)混合模型在时间序列预测中取得最先进性能,将每个MLP混合器建模为混合模型中的独立专家有望扩展模型的表示能力,使每个专家能够根据时变输入被激活。然而,将MLP混合器扩展为专家混合(Mixture-of-Experts, MoE)架构会导致可训练参数数量显著增加,使模型更难以训练。为缓解这一问题,研究人员提出了一种方法,该方法由一个完全可训练的全局专家和多个不可训练的局部专家组成。具体而言,该方法将全局专家的权重克隆到局部专家中,然后使用矩学习(moment learning)——一种最近提出的非传统神经网络训练方法——修改其权重分布。具体来说,每个局部专家通过对全局专家权重的共享副本应用基于矩的变换来生成,从而无需独立训练额外专家即可获得专家专门化。使用轻量级时间序列混合器(Time Series Mixer, TSMixer)架构的实验结果表明,该方法在未引入可训练参数显著增加的情况下,实现了与完全可训练的MoE对应方法相竞争的性能。在多个基准设置中,所提模型达到了与完全可训练的多专家基线相当甚至更优的预测精度,同时仅添加了该基线所需额外可训练参数的一小部分,这种效率进一步通过内存占用测量和基于效应量的差异评估得到证实。
期刊上发表的论文解读文章:

**研究背景与问题**
时间序列预测是机器学习的核心任务之一,Transformer和循环神经网络(RNN)曾主导该领域,但常伴随高计算成本和对长期依赖建模的局限性。近年来,基于多层感知机(MLP)的混合模型(如TSMixer)通过解耦时间维度和特征维度的交互,在保持计算效率的同时取得了与Transformer相当的预测性能。然而,单模型容量有限,难以应对非平稳时间序列中多样化的时序模式。受生物神经系统启发——哺乳动物新皮层通过共享结构模板产生功能特化的不同区域——研究者尝试将多专家架构(Mixture-of-Experts, MoE)引入MLP混合器,以增强模型表示能力。但直接扩展为MoE会带来可训练参数的剧增,且专家间容易趋同,导致训练困难和过拟合。因此,亟需一种参数高效的方法,在获得多专家收益的同时避免参数爆炸。

**研究开展与核心结论**
研究人员提出一种基于矩学习(moment learning)的TSMixer专家混合模型。该方法保持一个完全可训练的全局专家作为共享模板,通过权重克隆和基于统计矩的分布变形生成多个局部专家,仅需优化少数矩参数而非完整的专家权重。在ETT(电力变压器温度)基准数据集上的实验表明,该模型在可训练参数数量仅为完全可训练MoE基线约七分之一的情况下,预测精度(MSE和MAE)与后者相当甚至更优,且推理时间和内存占用更低。该工作发表在《Biomimetics》,展示了生物启发设计在参数高效多专家架构中的有效性。

**主要关键技术方法**
研究人员主要采用以下关键技术:1. **权重克隆与矩变形**:将全局专家权重拷贝至每个局部专家,利用Edgeworth展开对权重分布的高阶矩(偏度、峰度等)和低阶矩(均值、标准差)进行参数化调整,仅需训练少量矩参数。2. **门控机制**:使用依赖于输入的softmax或sigmoid门控函数自适应地加权组合全局专家与各局部专家的输出。3. **密集专家激活**:所有局部专家均被激活,避免稀疏路由的不稳定性。数据来源于ETT系列(ETTh1、ETTh2、ETTm1、ETTm2)标准基准。

**研究结果**
*RQ1: The proposed method can be effectively applied to MoEfication.* 通过表1对比标准TSMixer、可训练MoE-TSMixer和所提模型,发现所提模型在ETTm1的96步预测中MSE为0.329,优于MoE-TSMixer的0.348,且参数仅137,806(MoE-TSMixer为980,398),减少约7倍。在ETTm2和ETTh1上类似,所提模型在多数预测步长中达到最低或次低误差。表2的效应量分析进一步证实所提模型的优势在大部分设定中具有实际显著性。表3显示所提模型推理峰值内存(如ETTh1 96步时为312 MB)低于MoE-TSMixer(498 MB)和Transformer(723 MB),前向时间也更具竞争力。

*RQ2: Moment parameters influence performance.* 表4展示不同矩参数数量K下的MSE,K=4(对应均值、方差、偏度、峰度)在多数设定中表现最佳或接近最佳,说明四个基础矩足以捕获有效分布变形。表5显示局部专家数从2到16的变化中,性能波动较小,8个专家为稳健默认值。图2的消融实验表明,sigmoid门控函数通常优于softmax,且平衡全局与局部贡献的系数λ存在最优中值区间,证实共享知识与特化变体的混合至关重要。

**总结讨论与结论翻译**
讨论部分指出方法的局限性:并非在所有数据集和预测步长上均优于基线(如Exchange和ETTh2长步长设定下标准TSMixer或可训练MoE仍占优),矩变形的表达能力可能受限于完全独立参数化;矩参数数量和变形方式的选择需调参;当前采用密集激活,在极大规模场景下稀疏路由可能更优;矩扰动如何转化为功能多样性的理论理解尚不充分。未来方向包括自适应矩参数选择、集成稀疏门控、扩展到其他模型家族。

研究结论部分翻译如下:在本工作中,研究人员通过学习少量统计矩参数而非完整专家权重矩阵,提出了一种计算高效的MoE化(MoEfication)新替代方案,该方案最初受随机投影矩学习启发。实验发现验证了所提方法的核心前提:可以近似MoE架构的功能优势而不引起其特征性的参数爆炸。通过利用权重克隆和基于矩的分布变形,所提方法在表示多样性与参数效率之间实现了引人注目的平衡。从生物仿生视角看,该框架可解释为自适应生物系统的人工抽象:在生物系统中,生物体常保留共同的解剖或遗传结构,同时针对环境变化表现出特化的行为或表型变异。类似地,模型维护一个完全可训练的全局专家作为共享结构模板,并通过基于矩的变换从其权重分布推导出多个局部专家。这一设计使得模型无需独立训练每个专家即可生成特化的专家变体,从而体现了稳定性、多样性与适应性之间的生物仿生平衡。实证上,该模型始终展现出与完全可训练MoE基线相竞争甚至更优的预测性能,同时仅使用其参数的一小部分。这表明专家特化所需的多样性不一定需要每个专家的独立参数化,而是可以通过权重空间中的结构化变换来诱导。因此,所提方法重新定义了MoE架构中“专家”的概念,从独立学习的函数转变为共享、良好优化的全局模型的统计变形变体。这一重新解释在时间序列预测中尤为有价值,因为非平稳性要求适应性,而过度的模型复杂度常导致过拟合和低效。尽管存在局限性,但该方法开辟了参数高效MoE设计的新方向,表明未来架构可能越来越多地依赖结构化参数共享、受控分布变异和自适应专家选择,而非独立专家的暴力扩展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号