有效且高效的不完全多元时间序列预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

有效且高效的不完全多元时间序列预测

《Expert Systems with Applications》：Effective and Efficient Incomplete Multivariate Time Series Forecasting

【字体：大中小】 时间：2026年04月15日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　针对多变量时间序列缺失值问题，本文提出端到端模型Enter，包含缺失感知预训练模块（MAP）和跨注意力预测模块（ITF）。MAP通过missing-aware Transformer学习完整与缺失状态分布，ITF利用跨注意力机制直接关联历史与未来数据，避免数据填补误差累积。实验显示，Enter在4个真实数据集和气象数据集上准确率提升超21%，训练速度提高两个数量级。

韩石|杨洋吴|潘道展|李静|齐国强|苗晓叶|尹建伟|余刚

浙江大学数据科学中心，中国浙江省杭州市余杭塘路866号，310012

摘要

多变量时间序列中普遍存在的缺失值严重阻碍了准确的预测工作。现有的多变量时间序列预测方法主要学习完整的历史和未来时间序列数据之间的相互关系，因此无法处理这些时间序列数据中普遍存在的缺失值问题。在本文中，我们提出了一种新的预测模型，名为Enter，它整合了两个关键模块，即感知缺失值的预训练（MAP）和不完整时间序列预测（ITF），以端到端的方式有效且高效地预测不完整的多变量时间序列。具体来说，MAP引入了一个感知缺失值的Transformer，通过从不完整的历史多变量时间序列中学习数据分布来预训练预测模型。ITF利用交叉注意力机制对预训练模型进行微调，从而在利用所有观测到的历史多变量时间序列元素的情况下，稳健地预测未来时间序列而不会积累误差。在四个真实世界的多变量时间序列数据集和一个公开可用的不完整气象数据集上的广泛实验表明，与最先进的方法相比，Enter的准确率提高了21%以上，并且训练速度提高了两个数量级。

引言

多变量时间序列预测（Lai, Zhang, Li, Jensen, Lu, Zhao, 2024; Shi, Yin, Cai, Cichocki, Yokota, Chen, Yuan, Zeng, 2020; Wang, Wang, Li, Wu, 2018）在现实生活场景中（Cheng, Liu, Liu, Li, Luo, Chen, 2023; Huang, Chen, Li, 2022; Jiang, Koch, Sun, 2021）已被证明具有很大的实用性，例如在能源消耗（Pérez-Lombard, Ortiz, & Pout, 2008）、股票价格预测（Bai & Ng, 2008）和天气预测（Bright, Smith, Taylor, & Crook, 2015）等领域。其基本目标是精确预测多个相互关联变量随时间的变化。这种预测能力为长期规划和早期预警提供了宝贵的见解（Zhou et al., 2021）。

然而，获取完整的时间序列数据面临重大挑战（Agarwal et al., 2023），原因包括数据收集设备的故障（Miao, Wu, Chen, Gao, Wang, Yin, 2022; Miao, Wu, Wang, Gao, Mao, Yin, 2021）、系统环境不稳定（Ni, Miao, Zhao, Wu, & Yin, Wu, Miao, Huang, Yin, 2023a; Wu, Miao, Nan, Zhang, He, Yin, 2024a; Wu, Wang, Miao, Wang, Yin, 2024b）或隐私考虑（Miao, Wu, Chen, Gao, Yin, 2023; Wu, Miao, Li, He, Yuan, Yin, 2023b）等，这些因素都阻碍了数据收集过程。换句话说，现实世界中的多变量时间序列数据通常会丢失一部分特征（Miao et al., 2021），从而导致数据序列中出现缺失值。例如，公共的医学时间序列数据集PhysioNet的平均缺失率甚至超过80%，这对预测工作构成了重大挑战（Silva, Moody, Scott, Celi, & Mark, 2012）。因此，探索不完整多变量时间序列预测的问题是有吸引力且必要的。

许多传统的预测模型假设数据集完全完整，并在处理不完整的多变量时间序列时依赖于两阶段插补-然后预测的流程（Andrea, Ivan, Alippi, et al., 2021; Cao, Wang, Li, Zhou, Li, Li, 2018; Che, Purushotham, Cho, Sontag, Liu, 2018; Luo, Cai, Zhang, Xu, 2018; Luo, Zhang, Cai, Yuan, 2019; Miao, Wu, Wang, Gao, Mao, Yin, 2021; Ren, Zhao, Riddle, Taskova, Pan, Li, 2023; Tashiro, Song, Song, Ermon, 2021）。然而，显式的数据插补通常在数据完全随机缺失（MCAR）的假设下进行（Zhang, Song, Sun, & Wang, 2019），这不可避免地会导致误差积累和额外的计算开销。为了解决这个问题，一个新兴的子领域应运而生，专注于具有内置缺失值处理机制的模型（例如GRU-D、LGNet、GinAR和TriD-MAE）（Che, Purushotham, Cho, Sontag, Liu, 2018; Tang, Yao, Sun, Aggarwal, Mitra, Wang, 2020; Yu, Wang, Shao, Qian, Zhang, Wei, Xu, 2024; Zhang, Li, Yang, 2023）。尽管这些集成方法成功规避了两阶段的偏见，但它们仍然面临显著的瓶颈：循环或基于图的结构在处理长序列时往往计算效率低下，而将高度稀疏的历史分布直接映射到未来预测也具有挑战性。因此，开发更有效且高效的端到端解决方案来预测不完整的时间序列是不可或缺且紧迫的。

为了确保在不完整多变量时间序列预测中的有效性和效率，必须解决两个主要挑战。

首先，时间序列数据的固有非平稳性和高变异性给准确预测和捕捉未来观测值带来了重大挑战。虽然历史数据包含有价值的信息，但历史模式与未来行为之间的关系往往非常复杂且非线性。在存在缺失值的情况下，这种挑战变得更加明显，因为缺乏完整的历史信息会削弱构建稳健预测模型的能力。现有方法通常依赖插补模块来推断历史数据分布的缺失部分。然而，这些基于插补的技术经常无法捕捉到真实的底层分布，从而将噪声和错误引入模型。这种误解造成了学习到的历史数据分布与实际分布之间的差距，进而降低了模型的预测性能。

其次，训练时间序列数据中的数据不完整性问题不仅限于历史数据，也扩展到了未来时间序列。现有预测方法在模型训练期间无法直接学习不完整的历史和未来时间序列之间的映射。它们通常使用时间序列插补模块来填充历史和未来序列中的缺失数据，旨在建立插补后的历史数据与未来观测值之间的联系。不幸的是，这种解决方案经常导致预测误差的累积和模型训练成本的增加。实验结果表明，在真实世界的不完整多变量时间序列上，预测未来时间序列的均方误差甚至高达10。

因此，在本文中，我们提出了一种有效且高效的预测模型，名为Enter，它可以端到端地预测不完整的多变量时间序列。基于强大的预训练语言模型Transformer（Vaswani et al., 2017），Enter主要由两个模块组成，即感知缺失值的预训练（MAP）和不完整时间序列预测（ITF）。针对第一个挑战，MAP模块使用感知缺失值的Transformer以无监督的方式学习不完整历史时间序列数据中的真实底层观测数据和缺失状态分布，无需依赖插补。这有效地捕捉了历史数据中的复杂和非平稳模式，同时避免了基于插补的技术引入的错误和噪声。MAP有助于预测模型的预训练，以获得稳健的初始参数。为了解决第二个挑战，ITF模块引入了一个基于预训练模型的掩码时间序列预测框架。该模块使用交叉注意力机制直接学习不完整历史时间序列与不完整未来时间序列之间的关系，从而无需进行插补。通过有效利用历史序列中所有可用的观测数据，ITF模块能够准确且高效地预测未来时间序列，减少了与传统基于插补的方法相关的误差积累和计算开销。

我们的主要贡献总结如下：

•

端到端建模。我们提出了一种不完整多变量时间序列预测模型Enter，它可以在不依赖插补的情况下端到端地有效且高效地预测未来数据。

•

不完整数据学习。MAP模块通过学习不完整历史时间序列数据中的观测数据和缺失状态分布来预训练预测模型。

•

交叉注意力预测。ITF模块通过交叉注意力机制微调这样的预训练模型，以条件化地预测每个未来时间序列观测值，基于所有可用的时间序列数据。

•

广泛实验

。在五个真实世界的多变量时间序列数据集上的广泛实验表明，Enter的性能显著优于最先进的方法。

本文的其余部分组织如下。第2节介绍了相关工作。第3节定义了不完整多变量时间序列预测的一般问题。第4节概述了不完整多变量时间序列预测模型Enter。第5节和第6节分别详细介绍了MAP和ITF模块。第7节报告了实验结果和发现。最后，我们在第8节总结了这项工作。

问题定义

输入的多变量时间序列数据集包含一组样本

D = {X_{1}, ?, X_{N}}

，具有d个维度和L个时间戳。形式上，

X = {(x_{1}, ?, x_{d})}^{?} = (x_{: 1}, ?, x_{: L}) \in R^{d \times L}

，其中x_i表示（x_i1, ???, x_iL）。特别是，x_ij是X在第j个时间戳处的i个特征值，在不完整的多变量时间序列数据集中可能是缺失的。表1列出了本文中频繁使用的符号。

定义1

不完整的多变量时间序列。为了编码每个样本X在

D

中的缺失信息，

解决方案概述

在本文中，我们提出了一种有效且高效的不完整多变量时间序列预测模型，名为Enter。为了克服与复杂神经架构相关的展示和可读性挑战，我们将Enter设计为一个高度结构化的两阶段范式。如图1和图2所示，该框架主要由两个相互连接的模块组成：感知缺失值的预训练（MAP）模块和不完整时间序列预测（ITF）

MAP模块

时间序列数据的固有非平稳性和变异性给准确预测带来了重大挑战，尤其是在由于缺失值导致的数据稀疏条件下。在不完整输入的情况下，建模历史模式与未来行为之间的复杂和非线性关系变得更加困难。现有方法使用插补技术来重建缺失数据；然而，它们经常引入噪声并且无法准确近似

ITF模块

时间序列中的数据不完整性不仅影响历史数据，也影响未来观测值。传统预测方法在模型训练期间直接学习不完整的历史和未来时间序列之间的关系。为了应对这一点，它们通常依赖插补模块来填充历史和未来数据中的缺失值，旨在建立插补后的历史输入与未来目标之间的联系。然而，这种解决方案经常导致误差的累积

实验

在本节中，我们评估了Enter和八种最先进的多变量时间序列预测方法的性能。所有方法都是用Python语言实现的。实验在配备TITAN Xp 12GiB（GPU）和192GB RAM的Intel Core 2.80GHz服务器上进行，运行Ubuntu 18.04系统。

数据集。在实验中，我们使用了四个公共的真实世界多变量时间序列数据集：（i）电力数据集（Gasparin, Lukovic, & Alippi, 2022）包含电力

结论

在本文中，我们提出了一种不完整多变量时间序列预测模型Enter，它能够有效且高效地预测未来时间序列。它由MAP模块和ITF模块组成。MAP使用感知缺失值的Transformer来预训练预测模型，学习不完整历史时间序列中的数据分布。ITF使用交叉注意力机制对预训练模型进行微调，从而基于所有可用数据准确估计未来数据

CRediT作者贡献声明

韩石：撰写——原始草稿。杨洋吴：撰写——审阅与编辑。潘道展：软件、形式分析。李静：可视化。齐国强：数据管理。苗晓叶：概念化、监督。尹建伟：项目管理。余刚：资源。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作