基于强化学习的空间SEIIR模型中，针对不同变异株传播特性的自适应社交距离调整

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Theoretical Biology》：Adaptive Social Distancing under Variant-Specific Transmission Dynamics in a Spatial SEIIR Model with Reinforcement Learning

【字体：大中小】 时间：2026年06月19日 来源：Journal of Theoretical Biology 2

编辑推荐：

　　崔民辰|李晓顺|阿尔森·阿卜杜拉利|李善美韩国庆熙大学应用数学系，永仁市，17104 摘要疫情控制本质上是动态的，因为病毒的传播能力与人类行为会共同演化，并在不同空间尺度上发生变化。因此，相同的干预策略可能会因区域连通性、传播时间变化以及控制成本的不同而产生不同

　　崔民辰|李晓顺|阿尔森·阿卜杜拉利|李善美
韩国庆熙大学应用数学系，永仁市，17104

摘要
疫情控制本质上是动态的，因为病毒的传播能力与人类行为会共同演化，并在不同空间尺度上发生变化。因此，相同的干预策略可能会因区域连通性、传播时间变化以及控制成本的不同而产生不同的结果。然而，许多现有的分析框架和政策模型都假设传播率是固定的，或依赖静态阈值，这限制了它们在复杂且不断变化的疫情环境中指导有效干预的能力。我们提出了一种数学框架，将时变的多区域SEIIR模型与强化学习相结合，从而在不同成本情景下生成具有区域针对性的社交距离策略。利用韩国17个行政区域的COVID-19发病率和流动数据，我们估算了时变的传播率，并构建了一个决策环境，在该环境中，智能体可以观察疫情状况，为每个区域选择干预强度，并根据疫情和经济成本获得奖励。在初期，较低的干预成本使得学习到的策略在高度连通的大都市地区采取强力措施，从而在出现一次高峰后抑制了疫情发展。在高成本情况下，持续的控制仅限于京畿道，其他地区则仍存在病毒传播。在后期，成本因素成为主导，即使是在疫情严重的时期，高昂的干预成本也会抑制相关措施的实施。这些结果表明，传播能力的快速变化可能使严格的抑制措施变得非最优，最优策略可能需要容忍病毒持续传播。这也凸显出将机制性的疫情模型与强化学习方法相结合的、具有适应性且考虑空间差异的控制框架的重要性。

引言
2019年底出现的新型冠状病毒后来被命名为COVID-19，引发了全球性危机。由于其前所未有的传播速度，世界卫生组织于2020年正式宣布其为全球大流行病（世界卫生组织，2025）。即便在官方宣布疫情结束之后，该病毒仍通过不断变异持续存在。为应对这一危机，韩国采取了快速应对措施，包括大规模疫苗接种、扩大医院容量、建立公共卫生响应体系以及实施社交距离政策（Control，2025b）。然而，尽管通过政府推动的疫苗接种计划实现了超过70%的高接种率，但德尔塔变异株的出现还是导致了传播速度的急剧上升。从第四波疫情开始，全国每日确诊病例数频繁超过10,000例，这表明药物干预在控制疫情方面的局限性。因此，非药物干预措施的重要性日益凸显（Chen等人，2021；Ling等人，2022；Perra，2021；Lison等人，2023；Mendez-Brito等人，2021）。韩国采用了灵活的社交距离政策，根据报告的病例数量每周调整限制等级（Control，2022），从而能够及时加强或放宽干预措施。此外，各项政策还根据各地独特的疫情趋势和政策负担来制定，从而更有效地控制区域间和区域内的病毒传播。如果运用得当，这类政策可以在抑制疫情的同时减少不必要的成本，实现政策资源的最佳配置。然而，如果政策调整未能充分反映区域和时间上的差异，就可能出现政策失败或过度支出的风险。社交距离措施会带来极高的经济和社会负担。管理这些政策需要一种能够应对快速变化以及由流动网络连接的各地区之间显著差异的方法。因此，根据疫情发展轨迹确定不同地区和不同时期的最佳社交距离水平，对于回顾过去的大流行病以及为未来的公共卫生紧急情况做好准备而言，都是一项至关重要的任务。

为应对这一挑战，李晓顺等人提出了一种将强化学习与多区域SEIR模型相结合的方法，用于优化社交距离政策（Lee等人，2024）。强化学习是一种基于智能体与环境之间交互的优化框架（Arulkumaran等人，2017；Schulman等人，2017）。智能体选择行动，这些行动在环境中作为干预措施得以实施。智能体根据最终结果以及内部计算的相应奖励来评估所选行动是否有效。这一反馈循环不断重复，逐步找出能带来最高累积奖励的行动，该行动则被视为最优策略（Libin等人，2020；Kwak等人，2021；Arango和Pelov，2020；Kompella等人，2020）。SEIR模型将人口分为易感者、暴露者、感染者和康复者四个群体，用于描述传染病的传播过程（Keeling和Rohani，2008；Maassen，2020）。每个区域都被视为一个独立的群体单元，而这些单元通过一个网络相互连接，该网络反映了各区域的传播率差异以及区域间的流动情况（Tang等人，2020；Akuno等人，2023；Kolumbus和Nisan，2020；Bichara和Iggidr，2018；Meng和Zhu，2021）。李晓顺等人的模型采用多区域结构，以便有效考虑空间异质性，并能够优化随时间变化的、具有区域针对性的政策决策。他们的框架假设每个区域的传播率是固定的，这是SEIR型常微分方程模型中常用的简化假设。这种假设通常会导致疫情曲线呈现单一的上升和下降趋势，反映出疫情得到控制的态势。然而，长期的大流行往往会出现多次疫情高峰，且由于新变异株的出现，传播情况会发生突然变化。引入时变的传播率可以更好地反映现实数据中观察到的这类复杂疫情模式，从而补充现有框架（Jing等人，2021；Zhang等人，2022；Li等人，2023；Tizzoni等人，2013；Pardo-Araujo等人，2023；Song等人，2019）。近期的一些研究开始探索将强化学习作为适应性疫情控制的计算框架。与那些优化预定义干预路径的方法不同，强化学习侧重于通过与模拟的疫情环境互动来学习与状态相关的决策规则。通过学习将疫情状态映射到干预决策的策略，强化学习使得干预措施能够动态地适应不断变化的疫情状况。在那些具有空间异质性、传播率随时间变化以及疫情发展具有不确定性的疫情系统中，这一视角尤为重要。在这种环境下，强化学习为研究复杂疫情环境中的基于反馈的干预策略提供了天然的框架（Libin等人，2020；Kwak等人，2021；Kompella等人，2020）。

因此，我们开发了一种框架，将强化学习与空间疫情模型相结合，该模型中的传播和流动情况会随时间变化，从而能够在非平稳动态条件下实现政策优化。我们的方法借鉴了D. C. P. Jorge等人的模型，他们从巴西的区域病例数据和流动趋势中推断出时变的再生数（Jorge等人，2022）。由于他们最初的研究重点是再生数估算，完整的疫情发展轨迹并非主要分析对象；在这里，我们重构了他们公式所体现的疫情动态，并将该模型适配到韩国的情况。利用17个行政区域的COVID-19病例数据以及流动趋势，我们估算了随时间变化的区域特定传播率，并将社交距离作为一种干预措施，用于调节各区域的病毒传播。我们还试图纳入那些传播迅速变化的时段作为分析窗口，包括与新变异株出现相关的时段。虽然该模型并未明确体现变异株特定的遗传或免疫机制，但它可以通过估算的时变、区域特定的传播率来实现传播情况的突然变化。从这个意义上说，该框架旨在应对可能伴随疫情变异株出现阶段的、快速且具有空间异质性的有效传播能力变化。随后，我们利用这一综合环境，在平衡健康效果与政策成本的奖励机制下，学习具有区域针对性且随时间变化的社交距离策略，同时以清晰的方式呈现评估结果，说明哪些结论是基于韩国的具体情况，哪些则反映了所提出的建模和优化方法的更普遍特性。

研究框架概述
本节介绍了该研究的整体结构和逻辑流程。研究共分为两个主要阶段。研究的整体工作流程如图1B所示。在第一阶段，我们针对韩国的17个行政区域构建了一个多区域SEIIR模型，并将其与区域特定的区域间流动数据相结合。利用这一框架，我们估算了时变的传播率，并据此模拟疫情动态。

结果部分
本节展示了在两个分析时间窗口内，基于强化学习的社交距离政策优化结果。第一个时间窗口始于2020年8月11日，持续30周，第二个时间窗口则始于2021年7月24日。对于每个时期，基准经济成本权重θB是通过将模拟的发病率趋势与实际观察到的发病率趋势进行非正式对比后确定的参考值。这一选定并非通过正式程序完成。

讨论
COVID-19大流行凸显了在面对动态且具有区域差异的传播状况时，静态、统一的干预措施存在不足。虽然社交距离措施在遏制疫情方面较为有效，但往往缺乏灵活性，无法及时应对病例发病率的变化、新变异株的出现以及流动模式的改变。我们的研究通过开发一种将时变多区域疫情建模与强化学习相结合的框架，弥补了这一缺陷。

结论
本研究提出了一种基于强化学习的框架，该框架利用具有时变传播率的多区域疫情模型来优化社交距离政策。通过整合动态的疫情数据与流动模式，该框架能够描述复杂且不断变化的疫情传播情况，并有助于评估那些能在控制疫情与降低干预成本之间取得平衡的适应性政策。对韩国两个不同疫情阶段的分析表明，最优策略……

伦理审批与参与同意
不适用。

出版同意
不适用。

作者贡献
崔民辰、李晓顺、阿尔森参与了数据收集、分析及可视化工作。崔民辰和李晓顺负责论文的撰写。阿尔森、崔民辰和李善美参与了研究的构思、设计、验证以及论文撰写。所有作者均阅读并批准了最终稿件。

CRediT作者贡献声明
崔民辰：写作——审阅与编辑，写作——初稿，可视化，验证，方法学，数据整理，概念构建。李晓顺：写作——审阅与编辑，写作——初稿，验证。阿尔森·阿卜杜拉利：写作——审阅与编辑，验证。李善美：写作——审阅与编辑，写作——初稿，概念构建。

利益冲突声明
作者声明没有利益冲突。

资金支持
本研究由庆熙大学研究生院的BK21 FOUR项目资助（GS-1-JO-ON-20252362）。

联系信箱：

粤ICP备09063491号

热点排行