多变量时间序列预测(Lai, Zhang, Li, Jensen, Lu, Zhao, 2024; Shi, Yin, Cai, Cichocki, Yokota, Chen, Yuan, Zeng, 2020; Wang, Wang, Li, Wu, 2018)在现实生活场景中(Cheng, Liu, Liu, Li, Luo, Chen, 2023; Huang, Chen, Li, 2022; Jiang, Koch, Sun, 2021)已被证明具有很大的实用性,例如在能源消耗(Pérez-Lombard, Ortiz, & Pout, 2008)、股票价格预测(Bai & Ng, 2008)和天气预测(Bright, Smith, Taylor, & Crook, 2015)等领域。其基本目标是精确预测多个相互关联变量随时间的变化。这种预测能力为长期规划和早期预警提供了宝贵的见解(Zhou et al., 2021)。
然而,获取完整的时间序列数据面临重大挑战(Agarwal et al., 2023),原因包括数据收集设备的故障(Miao, Wu, Chen, Gao, Wang, Yin, 2022; Miao, Wu, Wang, Gao, Mao, Yin, 2021)、系统环境不稳定(Ni, Miao, Zhao, Wu, & Yin, Wu, Miao, Huang, Yin, 2023a; Wu, Miao, Nan, Zhang, He, Yin, 2024a; Wu, Wang, Miao, Wang, Yin, 2024b)或隐私考虑(Miao, Wu, Chen, Gao, Yin, 2023; Wu, Miao, Li, He, Yuan, Yin, 2023b)等,这些因素都阻碍了数据收集过程。换句话说,现实世界中的多变量时间序列数据通常会丢失一部分特征(Miao et al., 2021),从而导致数据序列中出现缺失值。例如,公共的医学时间序列数据集PhysioNet的平均缺失率甚至超过80%,这对预测工作构成了重大挑战(Silva, Moody, Scott, Celi, & Mark, 2012)。因此,探索不完整多变量时间序列预测的问题是有吸引力且必要的。
许多传统的预测模型假设数据集完全完整,并在处理不完整的多变量时间序列时依赖于两阶段插补-然后预测的流程(Andrea, Ivan, Alippi, et al., 2021; Cao, Wang, Li, Zhou, Li, Li, 2018; Che, Purushotham, Cho, Sontag, Liu, 2018; Luo, Cai, Zhang, Xu, 2018; Luo, Zhang, Cai, Yuan, 2019; Miao, Wu, Wang, Gao, Mao, Yin, 2021; Ren, Zhao, Riddle, Taskova, Pan, Li, 2023; Tashiro, Song, Song, Ermon, 2021)。然而,显式的数据插补通常在数据完全随机缺失(MCAR)的假设下进行(Zhang, Song, Sun, & Wang, 2019),这不可避免地会导致误差积累和额外的计算开销。为了解决这个问题,一个新兴的子领域应运而生,专注于具有内置缺失值处理机制的模型(例如GRU-D、LGNet、GinAR和TriD-MAE)(Che, Purushotham, Cho, Sontag, Liu, 2018; Tang, Yao, Sun, Aggarwal, Mitra, Wang, 2020; Yu, Wang, Shao, Qian, Zhang, Wei, Xu, 2024; Zhang, Li, Yang, 2023)。尽管这些集成方法成功规避了两阶段的偏见,但它们仍然面临显著的瓶颈:循环或基于图的结构在处理长序列时往往计算效率低下,而将高度稀疏的历史分布直接映射到未来预测也具有挑战性。因此,开发更有效且高效的端到端解决方案来预测不完整的时间序列是不可或缺且紧迫的。
为了确保在不完整多变量时间序列预测中的有效性和效率,必须解决两个主要挑战。
首先,时间序列数据的固有非平稳性和高变异性给准确预测和捕捉未来观测值带来了重大挑战。虽然历史数据包含有价值的信息,但历史模式与未来行为之间的关系往往非常复杂且非线性。在存在缺失值的情况下,这种挑战变得更加明显,因为缺乏完整的历史信息会削弱构建稳健预测模型的能力。现有方法通常依赖插补模块来推断历史数据分布的缺失部分。然而,这些基于插补的技术经常无法捕捉到真实的底层分布,从而将噪声和错误引入模型。这种误解造成了学习到的历史数据分布与实际分布之间的差距,进而降低了模型的预测性能。
其次,训练时间序列数据中的数据不完整性问题不仅限于历史数据,也扩展到了未来时间序列。现有预测方法在模型训练期间无法直接学习不完整的历史和未来时间序列之间的映射。它们通常使用时间序列插补模块来填充历史和未来序列中的缺失数据,旨在建立插补后的历史数据与未来观测值之间的联系。不幸的是,这种解决方案经常导致预测误差的累积和模型训练成本的增加。实验结果表明,在真实世界的不完整多变量时间序列上,预测未来时间序列的均方误差甚至高达10。
因此,在本文中,我们提出了一种有效且高效的预测模型,名为Enter,它可以端到端地预测不完整的多变量时间序列。基于强大的预训练语言模型Transformer(Vaswani et al., 2017),Enter主要由两个模块组成,即感知缺失值的预训练(MAP)和不完整时间序列预测(ITF)。针对第一个挑战,MAP模块使用感知缺失值的Transformer以无监督的方式学习不完整历史时间序列数据中的真实底层观测数据和缺失状态分布,无需依赖插补。这有效地捕捉了历史数据中的复杂和非平稳模式,同时避免了基于插补的技术引入的错误和噪声。MAP有助于预测模型的预训练,以获得稳健的初始参数。为了解决第二个挑战,ITF模块引入了一个基于预训练模型的掩码时间序列预测框架。该模块使用交叉注意力机制直接学习不完整历史时间序列与不完整未来时间序列之间的关系,从而无需进行插补。通过有效利用历史序列中所有可用的观测数据,ITF模块能够准确且高效地预测未来时间序列,减少了与传统基于插补的方法相关的误差积累和计算开销。
我们的主要贡献总结如下:
•端到端建模。我们提出了一种不完整多变量时间序列预测模型Enter,它可以在不依赖插补的情况下端到端地有效且高效地预测未来数据。
•不完整数据学习。MAP模块通过学习不完整历史时间序列数据中的观测数据和缺失状态分布来预训练预测模型。
•交叉注意力预测。ITF模块通过交叉注意力机制微调这样的预训练模型,以条件化地预测每个未来时间序列观测值,基于所有可用的时间序列数据。
•广泛实验
。在五个真实世界的多变量时间序列数据集上的广泛实验表明,Enter的性能显著优于最先进的方法。本文的其余部分组织如下。第2节介绍了相关工作。第3节定义了不完整多变量时间序列预测的一般问题。第4节概述了不完整多变量时间序列预测模型Enter。第5节和第6节分别详细介绍了MAP和ITF模块。第7节报告了实验结果和发现。最后,我们在第8节总结了这项工作。