统一的长时序时间序列预测基准

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

统一的长时序时间序列预测基准

《Neurocomputing》：Unified long-term time series forecasting benchmark

【字体：大中小】 时间：2026年05月27日 来源：Neurocomputing 6.5

编辑推荐：

　　为支持时间序列预测机器学习方法的发展，研究人员提出了一个面向长时序时间序列预测的综合性数据集。该研究汇集了来自多种来源的数据集，包括动力系统与真实世界记录。每个数据集均通过划分训练轨迹与测试轨迹并指定预定义回看长度（lookback length）的方式进行标

为支持时间序列预测机器学习方法的发展，研究人员提出了一个面向长时序时间序列预测的综合性数据集。该研究汇集了来自多种来源的数据集，包括动力系统与真实世界记录。每个数据集均通过划分训练轨迹与测试轨迹并指定预定义回看长度（lookback length）的方式进行标准化。该数据集包含长度最高可达若干步的轨迹，以确保能够对长期预测能力进行可靠评估。为确定在多样场景中最有效的模型，研究人员采用经典机器学习、经典深度学习以及当前最先进模型开展了大规模基准测试分析。结果揭示了这些模型之间具有启发性的性能对比，并强调模型有效性具有显著的数据集依赖性。研究进一步提出了自定义潜在空间 NLinear 模型，并为 DeepAR 引入课程学习（curriculum learning，CL）阶段；二者均持续优于其标准变体。

该文发表于《Neurocomputing》，围绕长时序时间序列预测（long-term time series forecasting，LTSF）的标准化评估问题，提出了一个统一的基准数据集与系统性的模型比较框架。研究背景在于，时间序列预测广泛服务于战略规划、资源配置、风险管理与控制设计等场景，因而高质量、可泛化、能够适应多种数据特征的 LTSF 方法一直是机器学习（machine learning，ML）与应用统计领域的重要研究目标。然而，现有研究在评估层面仍存在多重不足：一是常用数据集多集中于少数真实场景，且往往偏向单变量或按维度拆分处理，难以支持对模型跨领域能力的全面检验；二是部分研究依赖自定义合成数据或局部情景任务，虽然有助于分析特定机制，却不利于不同方法之间进行公平、统一的横向比较；三是不同研究对输入历史窗口长度（lookback window）的设置缺乏一致标准，使模型性能比较容易受到任务设定差异的干扰；四是监督学习神经网络可能在特定基准上过拟合，导致在单一数据集上表现优异的模型未必具备跨域泛化能力。在此背景下，开展一个兼具真实数据与合成数据、覆盖单变量与多变量、并统一训练测试协议与回看窗口设置的基准研究，具有明显必要性。

研究人员为解决上述问题，构建了统一的 LTSF 基准数据集。其核心思想是将真实世界数据与合成数据协同整合：一方面纳入已有经典真实数据集，另一方面利用多种数值模拟器生成无缺失值、长度可控、维度可调且相互独立的合成轨迹。真实数据为方法评估提供应用基准，而合成数据则能够精确控制潜在动力学、噪声结构、维度规模与时间尺度，从而更系统地考察模型在不同复杂度条件下的行为。特别是，合成数据可生成任意长、时间戳规则、彼此独立的轨迹，这对于研究长预测跨度下的稳定性尤为关键。基于这一统一数据框架，研究人员进一步对多类模型进行了广泛基准测试，涵盖经典神经网络模型、较新的深度学习模型以及经典机器学习基线模型，并提出两种改进模型，即潜在空间 NLinear 与引入课程学习的 DeepAR。研究结论表明，并不存在适用于所有 LTSF 任务的单一最优模型；模型性能高度依赖于数据集类型与数据特征。经典循环神经网络（recurrent neural network，RNN）模型在若干多变量、混沌或控制仿真场景中依然具有很强竞争力，而较新的 SOTA 模型在真实单变量任务中优势更为明显。研究还显示，DeepAR + CL 与潜在空间 NLinear 几乎在整个基准中均优于各自原始版本，说明课程学习与潜在表示预测策略对 LTSF 具有稳定增益。该工作的意义在于，不仅提供了大规模、开放、统一的基准资源，也为后续模型设计、默认基线选择与跨场景性能解释提供了更可靠的实验依据。

在技术方法上，研究主要采用以下几类关键策略。首先，构建统一数据基准：整合真实数据集与合成数据集，对所有数据统一进行训练/测试划分、标准化处理与预设回看窗口设计；其中合成数据由动力系统、随机微分方程、延迟微分方程、常微分方程、偏微分方程（partial differential equation，PDE）及 MuJoCo 仿真环境生成，真实数据则来自 M4、ETTm、电力、天气与 PEMS-BAY 等公开来源。其次，建立统一评测流程：以均方误差（mean squared error，MSE）和平均绝对误差（mean absolute error，MAE）为指标，对经典深度学习、SOTA 深度学习和经典机器学习模型开展独立训练与分组比较。再次，提出两项模型改进：在 DeepAR 中引入课程学习预热阶段，在 NLinear 中引入潜在空间编码—线性预测—解码机制，以增强长程预测与高维状态建模能力。

在研究结果部分，论文首先通过“Main contributions”明确了三项主要贡献。其一是数据集多样性。研究人员强调，仅依赖单类真实数据或局限性合成场景无法充分检验 LTSF 方法，因此构建了一个融合真实数据与合成数据的协同数据集，覆盖机器人仿真、偏微分方程、确定性混沌动力学和真实记录等多个领域。其二是促进机器学习模型的训练与测试。所有数据集都被划分为固定长度轨迹，并统一给定不同难度级别的回看长度，使得方法比较更可复现、更公平。其三是引入新型手工设计模型。研究人员首次将潜在空间 NLinear 与 DeepAR + CL 应用于 LTSF，并观察到这两者在整体数据集上均带来显著提升。

在“Datasets”部分，研究展示了该统一基准的数据构成，并说明合成数据与真实数据在任务难度上的互补性。合成数据集包括 Sinewave、Mackey-Glass、Lorenz、Stochastic Lotka-Volterra、Kuramoto-Sivashinsky、Cahn-Hillard 以及 6 个 MuJoCo 数据集。通过这些数据，研究分别覆盖了简单周期信号、延迟系统混沌、低维经典混沌、多变量随机种群动力学、高维混沌 PDE、高维稳定模式形成，以及受策略控制的复杂刚体动力学。研究指出，Mackey-Glass 与 Lorenz 的主要难点来自对初始历史高度敏感的混沌动力学；Kuramoto-Sivashinsky 同时面临混沌性与高空间维度编码难题；Cahn-Hillard 虽然动力学稳定，但状态维度大，对高效表示学习提出要求；MuJoCo 数据则反映了受外部控制器驱动的复杂多变量动力系统。真实数据部分则包含 M4、ETTm、ETTm 长跨度变体、电力、天气和 PEMS-BAY，分别对应金融、电力变压器、电力消耗、气象和交通传感等常见应用场景。研究通过对长序列进行切分、滑窗生成子轨迹与设定输入—标签对，使真实数据也纳入与合成数据一致的评测框架。

在“Machine learning models”部分，研究系统比较了深度学习与经典机器学习方法。深度学习模型包括 LSTM（长短期记忆网络）、GRU（门控循环单元）、DeepAR、DeepAR + CL、Latent ODE、N-HiTS、LTSF NLinear、Latent LTSF NLinear、SpaceTime、PatchTST 与 FreTS。经典机器学习模型则包括 XGBoost、随机森林、Extra Trees 和 Elastic Net。研究说明，多数模型采用原始文献推荐的默认或近默认超参数，以考察其“开箱即用”鲁棒性，而仅对新提出的两类模型进行必要调参。结果上，部分模型在高维长时距设置中会受到显存与计算约束限制，因而并非所有模型都能在全部任务上评估。

在“Benchmark methodology”部分，论文给出了统一评测定义。对每个数据集，研究人员将轨迹划分为输入回看窗口与未来预测段，要求模型基于长度为 L 的历史序列预测后续长度为 H 的轨迹，并以 MSE 或 MAE 作为优化与比较指标。各模型均在对应训练集上独立训练，在测试集上记录最优结果。研究还报告了大规模实验的计算设置与资源消耗，说明该基准具有较强工程完整性。

在“Benchmark results summary”部分，研究对结果进行了按数据集类别的汇总分析。MuJoCo、Chaos、Real Univariate、Weather、PDE 与 PEMS-BAY 分别作为主要类别进行比较。结果表明，经典神经网络在 MuJoCo 和 Chaos 两类数据上总体最强，其中 DeepAR + CL 在 MuJoCo 中表现突出，GRU 在 Chaos 类中排名领先；SOTA 模型中，N-HiTS 在真实单变量数据集上表现尤佳，FreTS 在 Weather 上达到最佳，PatchTST 在 PDE 任务中较强，潜在空间 NLinear 在 PEMS-BAY 上具有优势。经典机器学习方法整体弱于神经网络，但在 Weather 数据集上与深度模型差距缩小，显示某些结构化多变量真实数据上树模型仍有较强竞争性。研究特别指出，真实单变量数据是 SOTA 深度学习模型最稳定优于其他类别模型的场景，而混沌数据、多变量数据和高维数据仍然是当前方法的难点。

在“Benchmark conclusions”部分，论文保留并展开了若干关键结论。第一，“need of sanity check datasets”指出，简单的 Sinewave 数据集具有重要检验价值。尽管该任务本质简单，但部分在复杂任务中表现优良的神经网络模型在此反而难以收敛，尤其是 LSTM 与 DeepAR；课程学习能够缓解这一问题，说明基础正确性检验数据集对于基准体系不可或缺。第二，“best models depend on the dataset”强调不存在普适最优模型。较新的模型虽然在真实数据上占优，但在多变量或合成动力学数据上，经典模型常常更强。例如 GRU 在低维长轨迹和混沌数据中优势明显，DeepAR + CL、LSTM 与 GRU 在 MuJoCo 任务上表现优异，PatchTST 则在稳定高维 CH 数据中占优。第三，“underappreciated baselines: classical NN models”指出，LSTM 和 DeepAR 不应被忽视，它们应被纳入 LTSF 的标准基线，尤其是在超出常规单变量真实数据的更广泛场景中。第四，“DeepAR + CL and latent NLinear models are competitive”表明，课程学习显著提升了 DeepAR 在 LTSF 中的适用性，而潜在空间 NLinear 则拓展了 NLinear 至高维状态问题的能力，这两项改进在广泛场景下均体现出竞争力。

讨论部分的核心在于，论文反对以单一真实单变量基准来概括 LTSF 方法优劣的做法，主张通过跨域、多维度、长跨度、混沌与稳定动力学并存的统一评测体系来理解模型能力边界。研究结果说明，新模型并不必然全面优于旧模型，模型选择应当以数据特征为中心：真实单变量序列更利于某些新型架构发挥优势，而受控动力学、混沌系统及高维状态空间问题则仍保留经典循环结构与改进自回归模型的价值。与此同时，潜在空间建模与课程学习被证明是提升长期预测性能与可扩展性的有效方向。论文也指出，由于本研究未进行全面超参数精调，因此当前结果更能反映模型默认配置下的鲁棒性，而非绝对性能上限，这为未来更系统的调参研究预留了空间。

研究结论部分可译为：研究人员提出了一个面向长时序时间序列预测的新数据集，并对经典机器学习方法、基于神经网络的方法以及当前最先进模型进行了广泛基准测试。该工作被认为将对关注时间序列的机器学习社区产生重要影响，并为面向 LTSF 的机器学习研究未来发展提供有价值的见解。鉴于每个被评估模型均具有各自的超参数集合，全面细致的超参数优化超出了本研究范围。所完成的基准测试为默认或接近默认超参数条件下模型性能及其对超参数取值的鲁棒性提供了初步认识。针对多样场景开展更充分的模型调优以获得更优性能，是未来的重要研究方向。

联系信箱：

粤ICP备09063491号

热点排行