传染病时间序列的可预测性：是否某些季节和病原体本质上更难以预测？

《PLOS Computational Biology》：Forecastability of infectious disease time series: are some seasons and pathogens intrinsically more difficult to forecast?

【字体：大中小】 时间：2026年04月16日 来源：PLOS Computational Biology 3.6

编辑推荐：

　　摘要在传染病预测挑战中，单个模型的性能通常会随时间和空间的变化而有所不同。这一现象引发了一个问题：目标时间序列的某些特性是否导致某些季节、地点或疾病的预测更加困难？在这里，我们使用一种预测性指标来表征时间序列的未来可预测性，该指标通过计算时间序列的谱熵来实现。加利福尼亚州综

　　摘要
在传染病预测挑战中，单个模型的性能通常会随时间和空间的变化而有所不同。这一现象引发了一个问题：目标时间序列的某些特性是否导致某些季节、地点或疾病的预测更加困难？在这里，我们使用一种预测性指标来表征时间序列的未来可预测性，该指标通过计算时间序列的谱熵来实现。加利福尼亚州综合征性流感住院患者的可预测性在不同季节间差异显著，并且与高峰负担呈正相关。接下来，我们利用美国各州和全国性的COVID-19及流感住院数据分析预测结果，研究了可预测性与以下因素之间的关系：（i）预测目标的人口规模；（ii）通过平均绝对误差（MAE）、加权区间得分（WIS）和缩放相对WIS来衡量的预测性能。研究发现，预测目标的规模越大，可预测性越高；同时，在考虑人口规模影响的情况下，预测性能通常也会随着可预测性的提高而提升。这些初步结果支持了这样一种观点：某些目标和呼吸系统病毒的季节可能本质上更难以预测，并有助于解释模型性能在不同季节之间的变化。

作者总结
流行病学时间序列的内在特性是否有助于解释为什么某些季节、地点或疾病的未来更难以预测？为了解答这个问题，本研究采用了一种称为“可预测性”的指标来衡量时间序列的未来可预测性，该指标基于谱熵描述了信号中的内在不确定性或意外性。对于人口较多的地区，流感和COVID-19住院患者的可预测性得分较高，这可能是因为这些地区的数据量较大，从而使得时间序列更加平滑。同时，在考虑人口规模影响的情况下，具有较高可预测性的时间序列的预测性能通常也会改善，这表明该指标有助于理解预测的难易程度。这些初步结果支持了某些流行病学目标和呼吸系统病毒季节本质上更难以预测的观点，并有助于解释为什么不同呼吸系统病毒季节之间的模型性能会有所不同。

引言
传染病预测通过为预防和应对措施提供信息，从而有助于公共卫生决策，以减轻疾病负担和经济影响[1]。多年来，针对流感、COVID-19、登革热、西尼罗河病毒和埃博拉病毒等多种疾病进行了许多合作预测工作[2–6]。这些预测挑战和“预测中心”为建模团队提供了统一的提交目标，评估了单个模型预测的性能，并将多个团队的预测结果综合成一个统一的集成模型。不同类型的模型在构建方法上存在很大差异，可能包括机制性模型（如易感者-感染者-康复者[SIR]模型）、统计模型、机器学习模型或集成模型[3,7]。然而，历史上所有类型的单个模型都未能始终优于集成模型的性能[3,7]。在快速变化期间，预测性能往往会下降，某些预测目标（例如COVID-19病例相比COVID-19死亡病例）的预测更为困难[7,8]。目前尚不清楚模型的哪些组成部分导致了更高的性能，而且单个模型在不同季节和地点之间的性能也常常存在差异[7,9]。从宏观角度看，导致预测模型性能不匹配的因素至少有两个主要类别：（1）模型本身的不足，如校准不准确、规格设定错误、未能捕捉到关键疾病驱动因素等；（2）目标时间序列本身的内在可预测性限制。迄今为止，传染病预测评估主要依赖于“基于模型的错误分析”框架[10]，即使用加权区间得分（WIS）等指标来观察不同模型在传染病爆发或特定季节内的表现[3,7]。在这里，我们提出了一个相反的问题：传染病时间序列的某些内在特性是否使其预测更加困难？在传染病背景下，这些可预测性限制可能源于传播过程中的随机性、报告不一致性或意外的行为或政策反馈等因素[11–13]。尽管如此，如何最好地量化时间序列的可预测性仍然是一个涉及多个学科的复杂问题[10,14–17]。对时间序列复杂性的分类可能有助于解释模型性能的变化，并帮助确定模型适用于某些任务的程度（例如，捕捉线性与非线性动态[10,18]。各种熵度量方法提供了一种“无需模型”的时间序列复杂性评估方法，这种方法不依赖于具体的模型构建[10]。许多这些度量方法，如香农熵，都基于信息论，反映了信号可能状态中的内在不确定性或意外性。更具体地说，香农熵描述了离散随机变量在给定集合中状态被观察到的概率分布的内在不确定性。对于连续时间序列数据，排列熵则考虑了时间序列的序数模式[14,19]。以往的研究尝试将时间序列复杂性与模型性能联系起来，特别是利用排列熵对传染病时间序列的复杂性进行分类[14]。Garland等人（2014年）将加权排列熵应用于计算机性能时间序列数据，并将其与四种预测方法进行了对比，这些方法在捕捉复杂非线性动态的能力上有所不同。他们发现，加权排列熵与预测准确性之间存在广泛的相关性[10]。Scarpino和Petri（2019年）提出用排列熵来衡量传染病时间序列的可预测性限制[13]；不同疾病的可预测性与其序列长度之间的关系存在差异，表明排列熵能够反映每种疾病时间序列的特定特征。然而，这些结果并未随后与模型预测准确性联系起来。在另一项应用中，2020年西尼罗河病毒预测挑战使用排列熵来评估分组病例计数的不确定性，并将其与集成预测性能进行了比较[6]。排列熵较低（即病例计数历史变化较小）的县平均预测性能更高。最近，Mills等人（2025年）计算了COVID-19每周新增病例的排列熵，并将其与随时间变化的预测性能进行了比较，以了解可预测性如何影响决策预测[20]。即使在高可预测性较低的时期，集成模型的相对性能也通常更高。与排列熵相关但不同的一个指标是谱熵，它计算时间序列的谱密度的香农熵[21–23]。该指标描述了时间序列频率域中的无序程度，例如时间序列功率谱的复杂性。与排列熵不同，谱熵不量化时间序列的时间顺序不确定性。这两种指标都基于相同的香农熵公式，但在概率函数的定义上有所不同，因此捕获了互补的信息。虽然有多种方法可以定义时间序列的可预测性，但在本文中，我们将使用“可预测性”这一术语来指代Goerg（2013年）提出的基于谱熵的定义。该指标不受移动或缩放的影响，接近0%的值对应于白噪声，接近100%的值对应于单一正弦曲线（图1）。具有高谱熵（即低可预测性）的时间序列表明其功率谱分布在多个频率上，这表明其行为具有混沌性，可供预测利用的结构较少；相反，具有低谱熵或高可预测性的时间序列其功率信号集中在少数几个频率上，这表明其具有周期性或季节性特征，可能有助于预测。例如，自相关性极低的标普500指数回报的预测可预测性可能接近1%，而具有显著自相关性的平均温度时间序列（预期六个月和十二个月的滞后）的预测可预测性可能超过50%[21]。该指标不依赖于模型类型、预测范围或损失函数等预测参数，而仅取决于目标时间序列本身[21]。

使用这一指标，我们探索了三个不同数据集中代表性时间序列的人口规模与其可预测性之间的关系：（1）加利福尼亚州县和州级别的综合征性流感住院数据（来自加利福尼亚州医疗保健访问和信息部[HCAI]）；（2）美国各州和全国范围内的COVID-19及流感急诊室就诊百分比（%ED）数据（来自国家综合征监测计划）；（3）美国各州和全国范围内的COVID-19及流感实验室确诊住院数据（来自美国卫生与公共服务部[HHS]患者影响和医院能力数据系统/National Hospital Safety Network [NHSN] [24]）。对于后者，我们还利用COVID-19预测中心（https://covid19forecasthub.org/）和FluSight预测挑战（https://github.com/cdcepi/FluSight-forecast-hub）的存档预测结果，研究了预测目标的可预测性与预测性能之间的关系——这两个预测计划分别针对COVID-19和流感的实验室确诊住院数据[7,25]。其他研究发现，较大管辖范围内的预测性能更好，例如州级相比县级[8]，以及较大县相比较小县[26]。因此，我们提出以下假设：（1）随着人口规模的增加，时间序列的可预测性也应增加；（2）随着可预测性的提高，自然对数转换后预测的WIS应降低（即，在考虑人口规模影响的情况下，预测性能应随着可预测性的提高而提升）。我们认为这是首次将基于谱熵的可预测性指标应用于不同疾病和季节的传染病预测性能的研究。

方法
伦理声明
加利福尼亚州卫生与公共服务局人类受试者保护委员会（CPHS）确定本研究（项目编号2024–210）属于联邦通用规则的豁免范围。这一决定是根据加利福尼亚州卫生与公共服务局与人类研究保护办公室（OHRP）的联邦广泛保证#00000681发出的。
数据
加利福尼亚州县和州级别的综合征性流感住院数据来源于2000–2022年呼吸系统病毒季节的HCAI数据。2022–2024年呼吸系统季节的州和国家级COVID-19及流感实验室确诊住院数据通过Delphi COVIDcast从HHS/NHSN获取[24,27]。2022–2025年呼吸系统季节的州和国家级COVID-19及流感急诊室就诊百分比（%ED）数据通过Delphi COVIDcast从NSSP获取[27]。季节按照流行病学周40至周39的标准定义进行划分——具体来说，2022–2023季节为2022年10月2日至2023年9月30日，2023–2024季节为2023年10月1日至2024年4月30日，2024年4月30日后仅继续进行自愿报告。为了评估结果对季节时间的敏感性，我们还探讨了2022年7月1日至2023年7月30日和2023年7月1日至2024年4月30日的替代季节定义。州和全国人口规模估计数据来自2021年美国人口普查局的数据[28]。加利福尼亚州县人口估计数据来自2020年加利福尼亚州财政部的数据[29]。为了确定加利福尼亚州历史上各季节的主要流感亚型，我们从历史上的呼吸实验室网络（RLN）和临床哨兵实验室监测数据中提取了出现频率最高的亚型[30]。关于州和全国范围内的COVID-19及流感的预测数据，分别来自COVID-19预测中心和FluSight预测挑战赛，涵盖了2022–2023和2023–2024这两个呼吸病毒季节[7,25]。具体来说，我们重点比较了基线模型和集成模型，这两种模型的方法论都有详细的记录。简而言之，集成模型会取所有提交给该中心的针对特定目标和日期的预测值的未加权中位数[7,25]。基线模型作为一个中性对照模型，其中未来预测的中位数等于前一周的发病率，不确定性则由时间序列的每周发病率变化来确定[7,25]。我们还考虑了一些在两个预测中心中都持续提交的模型（例如CMU-TimeSeries、PSI-DICE、SGroup-RandomForest、UMass-trends_ensemble），这些模型代表了多种统计方法、机制方法和机器学习方法。在本文中，我们使用了一种基于谱熵的时间序列复杂性度量标准，称为“预测能力”，该度量标准由Goerg（2013）首次提出。我们简要介绍了其定义的核心概念，但建议感兴趣的读者参考Goerg（2013）的原始论文以获取更详细的推导过程。时间序列可以通过频域分析来揭示其组成频率，这是通过自协方差函数和谱密度之间的关系体现出来的，两者互为傅里叶对。一个平稳时间序列的自协方差函数表示为：其中是期望运算符，是滞后值，可以取任何整数值，而是的均值。对于同一过程，在给定频率下，谱密度可以通过对自协方差进行傅里叶变换得到：其中。对于连续随机变量，香农熵可以通过差分熵来近似：其中是概率密度函数，是支持集。结合谱密度和差分熵的概念，Goerg（2013）将平稳时间序列的预测能力更正式地定义为：其中表示白噪声信号的预期差分熵值，因此只有当对应于真正的白噪声时，才会等于零[21]。这与Scarpino和Petri（2019）对可预测性的定义相呼应：其中是排列熵[13]。在计算预测能力指标之前，时间序列数据被转换为滚动 weekly 总和（7天），以考虑可能的报告日效应。时间序列还使用Kwiatkowski-Phillips-Schmidt-Shin（KPSS）和Augmented Dickey-Fuller（ADF）测试在alpha=0.01的水平上进行了平稳性检验。基于平稳性检验结果以及地理和季节之间的可比性，在计算预测能力得分之前，时间序列数据被差分了一次。预测能力的度量使用foreCA包中的Omega函数来计算[21]。预测能力得分是针对每个地点（即HCAI数据的县或NHSN的州和全国）以及上述“数据”部分中定义的每个呼吸病毒季节进行的。预测评估中，点预测误差使用平均绝对误差（MAE）来衡量，它表示模型中位数预测值与给定模型、地点和季节的实际观察结果集之间的绝对差异。概率预测准确性使用WIS来评估，这是一个衡量定量或区间预测在一系列预测区间内表现的综合指标[31]。对于预测区间的单个区间得分，其公式为：其中是指示函数，是上限预测值，是下限预测值。该得分包含三个组成部分：表示预测区间宽度或分散度的惩罚，表示低估的惩罚，表示高估的惩罚。然后WIS将不同级别的区间得分相加，即：其中是WIS中包含的 quantile 总数，是预测中位数，是一个非负的、未标准化的权重，通常设置为：和 [31]。此外，还使用相对技能（relative skill）来对模型进行评分，该方法通过计算所有模型之间所有可能的成对比较的几何平均值来确定模型排名，公式为：其中表示模型i和模型m在所有可能模型M中的平均评分比率。由于这个指标基于成对比较，因此只有当模型对相同日期的目标有贡献时才会产生评分，从而有助于控制预测缺失的情况[32]。在这里，我们展示了相对于相应基线模型的缩放后的相对WIS结果。相对WIS值低于1表示给定模型的表现优于基线模型，而大于1的值则表示模型的表现平均而言不如基线模型。最后，还使用区间覆盖率来评估模型，其中50%和90%的中心预测区间的覆盖率用于评估观测值落在给定预测区间内的百分比[32]。一个校准良好的模型应该有大约与规定预测区间相匹配的观测值百分比，例如，50%的观测值落在0.25和0.75 quantile之间的50%中心预测区间内。像MAE和WIS这样的指标会根据目标的绝对规模进行缩放[31]。这自然会给予疾病负担较重的地点更多的权重。相比之下，在评估之前应用对数转换意味着基于相对误差而不是绝对误差来评分，从而给人口规模较小的地点目标赋予相同的权重[33]。因此，首先通过对预测及其相应的观察结果进行自然对数转换，以帮助缓解不同目标地点之间的负担差异[33]。遵循Bosse等人（2023）的研究方法和一般惯例，在评分之前，我们在观测值和预测数据中添加了一个小的正量（a=1），以考虑可能的零值情况，同时保持单调转换[33]。在这种情况下，MAE和WIS值都是基于预测和对数的自然对数计算的[33]。MAE、WIS、缩放后的相对技能和区间覆盖率是使用R语言中的scoringutils包针对每个地点、目标日期和模型组合在一周、两周、三周和四周的时间范围内计算得出的[32]。为了探索预测能力与某些指标之间可能的关系，每个指标（即MAE、WIS、缩放后的相对技能）都是通过对目标地点和呼吸病毒季节的每种组合取平均值来总结的。所有分析都是在R语言中完成的[34]。在查看加利福尼亚州县和州级的综合征性流感住院病例数据时（这些数据有更多的季节记录），发现某些呼吸病毒季节比其他季节更具“可预测性”，尤其是在人口规模较大的地点这种差异最为明显（图2A）。例如，2021–2022和2017–2018季节加州州的预测能力范围分别为19.5%到41.6%。在2000-2022年间，预测能力与每个季节的累积负担和峰值负担之间存在正相关关系，调整后的R平方分别为0.56和0.81（图2B和S1）。2017–2018季节是H3N2主导的季节，其住院病例数、累积负担和预测能力均最高（图2B和S1）。另外两个H3N2主导的季节（即2003–2004、2005–2006）由于其峰值负担高于预期，因此预测能力也高于预期。2009年H1N1猪流感大流行期间的两个季节（2008–2010）由于其峰值负担低于预期，因此预测能力低于预期。下载： PNG更大图像TIFF原始图像图2. 不同季节的综合征性HCAI流感住院病例预测能力变化示例。(A) 加州州及其各县按呼吸病毒季节划分的预测能力与人口规模之间的关系，数据来自2017-2022年的HCAI数据（2020-2021年因COVID-19大流行被排除），并使用广义加性模型（GAM）进行可视化。左上角的插图面板为人口规模较小的地区提供了放大视图；(B) 加州州按2001-2022年的综合征性HCAI数据（2020-2021年因COVID-19大流行被排除）得出的预测能力与流感每周峰值住院人数的自然对数之间的关系，并用线性回归进行拟合（= 7.49，p<0.001）。图表中的年份标签对应于MMWR季节的第一年，例如，2001对应于2001-2002年的呼吸病毒季节。https://doi.org/10.1371/journal.pcbi.1014175.g002对于美国各州和全国范围内的实验室确认的COVID-19和流感住院病例，时间序列的预测能力随着目标人口规模的增加而增加（图3）。这种模式对于COVID-19和流感来说通常处于同一数量级，并且在2022–2023和2023–2024季节中也是如此（图3）。相比之下，对于% ED就诊次数（S2图），预测能力与人口规模之间的关系就不那么明显了。尽管除了2022–2023年的流感季节外，预测能力与人口规模之间的普遍关系是正相关的，但只有2023–2024和2024–2025年的COVID-19% ED就诊次数显示出与人口规模显著的正相关关系（S1表）。下载： PNG更大图像TIFF原始图像图3. 人口规模与预测能力之间的关系。(A) 在两个呼吸病毒季节中，预测能力（Ω）与人口规模的自然对数之间的关系，数据来自美国各州和全国的实验室确认（HHS/NHSN）的COVID-19和流感住院病例。(B) 2022-2023季节美国大人口规模（U.S.）和小人口规模（Wyoming）的COVID-19和流感的示例时间序列。(C) 图B中显示的样本时间序列对应的谱密度图。每个面板中的相应预测能力得分以红色文本显示。https://doi.org/10.1371/journal.pcbi.1014175.g003正如先前的研究[8,26]所指出的，对于实验室确认的住院病例，预测性能通常在人口较多的目标中有所改善；也就是说，对于对数转换后的预测，MAE和WIS在对数尺度上随着人口规模的增加而减少（S3图）以及大多数单个模型（S4图）。对于预测性能与累积季节发病率之间的关系，也观察到了类似的模式（S5图）。除了2022–2023年的流感季节外，对数尺度上的MAE和WIS随着预测能力的提高而减少，即预测性能随着预测能力的提高而改善（图4和表1）。例如，在2022–2023年的COVID-19季节，预测能力值范围从10%（爱达荷州）到30%（美国），相应地MAE的相对误差从25%降低到21%，WIS的相对误差从26%降低到14%。相比之下，基线模型的表现与预测能力没有这种关系，斜率估计不显著或为正值（图4和表1）。下载： PNG更大图像TIFF原始图像表1. 线性回归模型拟合得到的预测能力（Ω）与预测性能之间的关系，针对美国各州和全国的实验室确认（HHS/NHSN）的COVID-19和流感住院病例，如图4所示。数值保留三位有效数字。粗体行在p=0.05的阈值下具有统计学意义。https://doi.org/10.1371/journal.pcbi.1014175.t001 下载： PNG更大图像TIFF原始图像图4. 在两个呼吸病毒季节中，预测能力与预测性能之间的关系，针对美国各州和全国的实验室确认（HHS/NHSN）的COVID-19和流感住院病例。表1报告了A-C部分的回归拟合结果及其统计显著性。https://doi.org/10.1371/journal.pcbi.1014175.g004对于COVID-19和流感两个集合，MAE的单位预测能力变化率范围为-0.0046至-0.0086，即每增加1%的预测能力，MAE的相对误差减少约0.46-0.86%（表1）。WIS的单位预测能力变化率为-0.0016至-0.0062，相应地WIS的相对误差减少约0.13-0.62%（表1）。两个集合的缩放后相对技能与预测能力之间的关系在两个季节和两种疾病中都是显著的（图4C和表1），相对技能的增加范围为每单位预测能力-0.0048至-0.011。总体而言，这些发现对于季节性时间的不同定义（S6图和S2表）以及预测范围（图5和S3表）都表现出较强的稳定性。随着所有预测范围的预测能力的提高，集成模型的相对技能也得到了提升，这适用于COVID-19和流感（图5和S3表）。下载：PNG（大图）、TIFF（原始图）。图5显示了两个呼吸道病毒季节中预测能力与预测性能之间的关系。目标数据是美国各州和全国范围内的实验室确诊的COVID-19和流感住院病例。预测性能是通过将集成模型的相对技能与基准模型进行比较来衡量的。列区分了COVID-19和流感，而行表示预测范围为0、1……4周。S3表报告了线性回归拟合结果及其统计显著性。https://doi.org/10.1371/journal.pcbi.1014175.g005

预测覆盖范围在季节、病原体和模型之间差异很大，这使得预测能力与预测区间覆盖之间的关系更加模糊（S7图和S4表）。例如，对于COVID-19，集成模型和基准模型在50%和90%的覆盖区间内的覆盖率都高于预期，而对于流感，集成模型和基准模型的覆盖率通常小于或等于目标覆盖率（S7图）。尽管预测能力提高通常会导致区间覆盖率下降，但这种关系在MAE、WIS或相对技能方面并不明显（表1和S4）。此外，这种下降关系仅表明COVID-19的预测性能有潜在的提升，因为其覆盖率最初就高于目标的50%和90%水平。对于实验室确诊的COVID-19和流感住院病例，预测能力的指标受数据报告频率（图6）和数据平滑程度（图7）的影响较大。降采样为每周报告频率的时间序列显示出较低的预测能力分数（图6），并且与每天报告频率的滚动周住院病例时间序列相比，预测能力与人口规模之间的显著关系也较少（表2）。虽然预测能力随人口规模的增加而增加，但人口规模对每周样本时间序列的预测能力变异性的解释作用小于每日样本时间序列，且这一关系仅在2023-2024季节的COVID-19每周时间序列中显著（图6和表2）。预测能力与数据平滑程度之间的关系呈现渐近动态——从每日报告的较低预测能力分数开始，随着滚动求和窗口长度的增加而趋于平稳（图7）。下载：PNG（大图）、TIFF（原始图）。

表2显示了2022-2023和2023-2024季节中，来自州和全国HHS/NHSN数据的COVID-19和流感实验室确诊住院病例的每日报告与每周报告的预测能力（Ω）与人口自然对数之间的线性回归模型拟合斜率估计值。数值保留三位有效数字。加粗的行在p=0.05的阈值下具有统计显著性。https://doi.org/10.1371/journal.pcbi.1014175.t002

图6比较了2022-2023和2023-2024季节中，来自州和全国HHS/NHSN数据的COVID-19和流感实验室确诊住院病例的每日（7天滚动求和）与降采样每周数据的预测能力分数与人口自然对数（列）之间的关系（行）。虽然所有疾病和季节的组合在每日报告时都具有统计显著性，但只有在2022-2023季节的COVID-19中，人口规模与每周预测能力之间存在显著关系（表2）。https://doi.org/10.1371/journal.pcbi.1014175.g006

图7探讨了信号平滑程度与预测能力分数之间的关系。（A-C）马里兰州的流感住院病例时间序列，展示了每日报告与28天或56天滚动求和之间的对比。信号柱的x轴表示自2021年2月2日起要求强制报告流感住院病例以来的天数。（D）根据x轴指定的聚合天数计算的预测能力分数。趋势线是基于滚动求和窗口（天数）的广义加性模型（GAM）拟合，使用了三次样条基函数。https://doi.org/10.1371/journal.pcbi.1014175.g007

讨论

通过使用简单的信号处理指标来表征传染病时间序列的可预测性，我们发现不同疾病的时间序列（即COVID-19与流感，图3）以及同一疾病的不同呼吸道病毒季节（图2）的可预测性存在差异。我们的工作进一步表明，当使用基于计数的指标（如住院病例数，图2A和3）时，预测能力会随着人口规模的增加而提高；同时，当使用基于对数的评分方法来减轻人口规模的影响时，集成模型的预测性能在具有较高预测能力的 time series 中有所改善（图4）。对于所有季节和疾病的组合，集成模型相对于基准模型的相对技能随着目标时间序列预测能力的提高而提升（图4C），这些提升来自于集成模型性能的改善，而不是基准模型性能的变化，后者的预测能力相对保持不变（图4C和表1）。这种随季节变化的预测能力差异有助于解释为什么模型排名会逐年变化，以及模型在某些季节是否能够（或无法）胜过集成模型[7]。虽然这种预测能力指标基于谱熵，但这一发现加强了之前使用排列熵进行的研究结果，即测量到的可预测性与相应的预测准确性之间存在关联[6,10]。2022-2023年的流感季节是一个例外，其中MAE和WIS分数与预测能力没有显著相关性（图3B和3C以及表2）。这种集成模型性能的不匹配可能是由于COVID-19大流行后的流感动态不规则造成的[35]。在这段时间内，2022年春季美国流感活动异常增加，同时CDC FluSight Forecasting Challenge从2022年开始预测实验室确认的住院病例，而不是类似流感的疾病[7]。这也表明，无论时间序列的特征如何，预测一个全新的信号仍然具有挑战性，特别是当缺乏历史数据时。峰值季节负担与预测能力之间存在强烈关系（图2B），这可能意味着具有更单一、更尖锐峰值的季节具有更高的预测能力。然而，这一发现与一般规律相反，即在快速变化期间（如增长阶段或流行高峰期），预测通常更为困难[7,8]。相比之下，对于混乱、非典型的流感季节（例如2009年H1N1猪流感大流行期间和COVID-19大流行之后），预测能力低于预期（图2B）。这符合直觉，因为人们会认为总体负担较低的时期会表现出更多的流行随机性，而高峰期则更接近平均场行为。然而，值得注意的是，预测能力指标是尺度不变的[21]，即对于给定的时间序列，每周住院病例的原始数量和每周住院率的预测能力分数是相同的。因此，我们认为这一指标反映了季节形状的某些方面，而不仅仅是负担的绝对大小本身。我们的结果还呼应了之前的研究，即发现预测目标的人口规模与预测性能之间存在关联（S3和S4图）[8,26]。当观察加州各县（图2）和美国各州（图3和4）时，预测能力随人口规模的增加而提高。这种预测能力与人口规模之间的关系可能反映了普遍直觉，即较大的人口应该具有更接近平均场的信号，相应的高频成分较弱，从而导致更高的预测能力分数。然而，这一结论的一个关键假设是疾病发病率或负担通常随人口规模而变化。为了验证这一假设，我们评估了累积季节发病率、预测能力和预测性能之间的关系。随着累积季节发病率的增加，预测能力提高，预测性能也得到改善（图5）。为了进一步探讨这一模式的可能机制，我们还研究了人口规模与预测能力之间的关系，其中分母考虑了报告量：% ED访问次数。在这种情况下，人口规模与预测能力之间的关系较为复杂；仅在2023-2024和2024-2025季节的COVID-19% ED访问次数显示出显著的正相关关系（S2图和S1表）。由于我们可能会认为，具有分母的目标指标可能会使时间序列整体更加平滑，因此人口规模与预测能力之间更为微妙的关系并不令人惊讶。另一个值得注意的是，预测能力与时间数据平滑程度（例如，每日与每周滚动求和）之间存在非线性关系；预测能力随着用于平滑的窗口宽度的增加而提高（图7）。这些发现共同指向了数据聚合带来的信噪比改善——无论是空间上的（即，较大的人口规模具有更大的报告量）还是时间上的——可能是预测能力分数较高的潜在机制，而不是在特定尺度上发生的某种特定的传播现象。这里观察到的预测能力模式提出了关于传染病预测挑战实际实施的一些问题。首先是，这种特定的预测能力指标似乎受到数据频率的强烈影响（例如，每日与每周）（图6）；这对于基于谱熵的指标来说是合理的，因为报告频率的变化可以改变信号的频率内容。预测能力与人口规模之间的关联在每日数据中最显著（图6和表2）。混叠现象——即简单的降采样会掩盖样本中的高频成分，导致功率谱变得更加均匀——也可能解释这些观察到的依赖性[36]。由于缺乏关于哪些模型是基于每日数据还是每周数据进行训练的信息，我们无法直接将这些观察结果与预测性能联系起来。尽管COVID-19和流感的每日住院数据的公开时间有限（并且COVID-19曾短暂地作为正式的预测目标），但预测中心主要关注的是每周住院数据。尽管如此，这种模式表明，从每日报告频率切换到每周报告频率可能会掩盖有可能提高预测性能的信息。这种特定的预测能力指标的另一个值得注意的模式是，对于较小的地理区域，无论疾病如何，预测能力始终有一个大约10%的恒定下限。尽管在COVID-19大流行之后，人们对提供本地级别预测的兴趣有所增加[26]，但这些结果引发了关于这些尺度上传染病预测的问题。在较小人口规模下模型性能降低表明，可能需要向公共卫生从业者明确说明这些预测结果。然而，这一考虑可能不适用于更大人口规模的“本地级别”预测，例如像纽约市这样的大都市。由于% ED访问次数的预测能力分数通常不依赖于人口规模（S2图），使用具有隐含分母的报告量指标也可能有助于缓解这些权衡。最后，根据预测能力指标，某些季节的可预测性较高或较低（图2A和3A）。由于基准模型与预测能力之间没有显著关系（图4），这引发了这样一个问题：在评分预测时，是否应该[1]根据地理规模控制某种形式的信号可预测性，或者[2]事后控制季节可预测性。前者可以通过包括某种形式的相对误差指标或变换后的评分来解决。后者可能在比较不同季节的模型性能时更为重要。例如，可以使用回归框架来标准化或调整不同季节的预测分数，其中一个协变量是预测能力分数或其他时间序列复杂性指标。这有助于解释模型性能的变异性是否反映了不同模型类型更好地处理某些时间序列复杂性的能力[10]。可预测性是一个具有吸引力的指标，因为它将复杂的时间序列简化为一个单一的值。然而，有几个特点表明，这个指标并不一定能够捕捉到与预测性能相关的所有特征或维度，对这种维度简化的解释仍然具有挑战性。由于基于谱熵的可预测性指标是在频域中测量的，有时很难理解时间序列的哪些特性可以直接转化为更可预测的信号。该指标的实用性基于这样一个假设：即疾病报告或动态中的重复模式可能会提高预测性能。然而，在某些情况下，对于一个全新的病原体或新变种在几乎没有历史数据或重复周期的完全未知人群中的传播，仅通过理解疾病传播机制就可以做出很好的预测。例如，在美国COVID-19情景建模中心的最初Omicron轮次（第11轮）中，该中心的预测提供了关于新变种出现时间和规模的准确信息[37]，这可能是因为适用于免疫逃逸变种的简单SIR框架规律。因此，如果对传播和免疫机制有很好的了解，并且具有适当的预测目标背景，可能就不必依赖于可预测的周期。还有许多其他方法可以用来衡量时间序列的复杂性和熵[16,17]，例如排列熵[10,13,20]，未来的研究可以比较其他可能捕捉到对传染病背景重要的非线性模式或特征的指标。这项分析的一个关键局限性在于，我们测量的是整个季节的可预测性，而这里呈现的预测指标代表的是随着时间推移的众多单独预测的平均得分——每个预测都是在截至该日期之前的季节中信息不完全和不准确的时间点进行的。这种回顾性方法还意味着我们没有考虑基础目标数据的变化版本，这是模型在实时生成预测时必须处理的问题。未来的分析可以通过将这个指标应用于版本化的数据，并探索其对滚动窗口的敏感性，来探索实时预测应用。包含多年的较长滚动窗口可能能够更好地揭示具有年度周期的病原体的周期性差异。另外，研究可预测性与预测性能在流行病不同阶段（例如，在高峰期或活动水平较低时）之间的关系也会很有趣。例如，Mills等人（2025年）使用了12周的滚动窗口结合排列熵来评估局部预测性能[20]。其他考虑预测时时间序列更局部行为的方法（例如，形状小分析、类似方法）也可能解决将全局时间序列指标应用于局部预测得分总和的这一局限性[38,39]。虽然我们研究了一些不同的流行病学目标（即综合征住院患者数、急诊就诊百分比、实验室确认的住院患者数），但这项分析并未解决潜在的临床报告模式差异或地理、季节或疾病之间的偏差问题，这些差异可能会影响可预测性评分。例如，尽管NHSN住院数据似乎与其他现有的COVID-19和流感监测系统吻合得很好[40–42]，但在非季节性月份，医疗服务提供者可能不太愿意检测和诊断流感，或者由于多重检测的增加，流感检测结果可能会偶然增加。这在实际预测评估中可能很重要，因为传染病数据在时间上的连续性经常会发生变化，包括目标、报告频率和报告定义（例如，在COVID-19大流行期间，流感预测目标从类似流感的疾病（ILI）转变为实验室确认的住院患者数，以及NHSN报告要求在2024年11月从每日改为每周）。未来的研究可以探索其他数据来源和病原体，并在可能的情况下，将这些结果与现有的预测中心档案联系起来，以评估预测性能。这项工作有助于改进用于评分预测的基线模型的选择[43]，更好地跨季节比较预测中心的结果，并增加对预测应在不同不确定性和可预测性阈值下如何有助于决策的理解[20]。这个指标仅反映了基础传染病时间序列本身，而忽略了可能构成完整预测信息集的其他潜在协变量（例如，在预测死亡率时了解病例或住院情况的信息的价值[20]）。我们希望这项分析能够激发进一步的研究，以明确传染病时间序列本身的特性——或者说是预测的“信息集”，这可能有助于进一步解释不同季节和疾病间的预测性能。

热点排行