《PLOS Computational Biology》:Enhancing generalizability of model discovery across parameter space with multi-experiment equation learning for biological systems
编辑推荐:
为解决代理基模型(ABM)计算量大、难以分析,且传统方程学习(EQL)方法泛化性差的问题,研究人员开展了多实验方程学习(ME-EQL)主题的研究。他们提出了两种新方法:逐个多实验方程学习(OAT ME-EQL)和嵌入结构多实验方程学习(ES ME-EQL),并利用包含空间结构的生-死-迁移ABM进行验证。结果表明,两种方法均能显著降低从ABM数据中恢复参数的相对误差,其中OAT ME-EQL在参数空间上展现出更好的泛化性。这项研究增强了从复杂生物系统数据中学习得到的模型的泛化能力和可解释性。
在生命科学领域,生物系统(如细胞群体、动物种群)常常展现出令人着迷的时空模式。这些宏观行为往往源自微观个体(例如单个细胞、分子)之间复杂的相互作用。为了理解这种从微观到宏观的“涌现”现象,科学家们常常借助数学模型。其中,基于代理的模型(Agent-Based Model, ABM)是一种非常强大的工具。它像指挥一场微观世界的交响乐,通过设定每个“代理”(如细胞)的行为规则并模拟它们之间的互动,来重现复杂的生物过程。这种方法能细致地捕捉空间效应和生物相关机制,是研究伤口愈合、肿瘤生长、生态迁徙等问题的有力框架。
然而,这场交响乐的“演奏”成本极高。ABM通常是随机且计算密集型的,模型中有大量输入参数。每当科学家想调整参数、进行参数估计或敏感性分析时,都需要运行海量模拟,这严重限制了ABM在数据驱动任务(如从实验数据中推断关键生物学参数)中的应用。于是,研究者们开始寻找ABM的“速写本”或“替身”——即计算更高效的替代模型(surrogate model)。其中,能够描述群体密度随时间演化的微分方程(Differential Equation, DE)模型尤为受欢迎,因为它们不仅计算快,还具备良好的可解释性,能与现有的参数估计方法兼容。
传统上,有两种主要途径来获得这种替代模型。一是从第一性原理出发进行“解析推导”,例如通过平均场(mean-field)理论。但这种方法通常依赖于“充分混合”等强假设,对于许多具有空间结构、随机性和异质相互作用的生物ABM来说,这些假设往往不成立,导致推导出的平均场模型与实际ABM模拟数据存在偏差。二是“从数据中学习方程”,即方程学习(Equation Learning, EQL)。近年来兴起的稀疏辨识非线性动力学系统(Sparse Identification of Nonlinear Dynamical Systems, SINDy)等方法,能够从时间序列数据中自动发现支配系统演化的微分方程。已有研究成功地将EQL应用于为生物ABM学习可解释的替代模型。
但这里存在一个关键瓶颈:传统的EQL方法通常是“一个参数对应一个模型”。也就是说,为ABM的每一组特定参数(例如细胞增殖率Rp)训练一个独立的微分方程模型。如果你想了解参数变化时系统行为如何变化,就必须为每一个新参数值重新训练模型。这就像为交响乐的每一个细微的调音变化都重新谱写一遍总谱,既繁琐又无法形成对参数空间的整体理解,严重限制了模型的泛化能力。最近,一些条件方程学习和算子学习的方法试图解决这个问题,但它们往往以牺牲模型的可解释性或引入难以进行生物学解释的隐表示为代价。
那么,能否发展一种新方法,既能从ABM数据中学习到可解释的微分方程,又能让这个方程“学会”适应不同的参数,从而在整个参数空间中都保持良好的预测能力呢?这正是发表在《PLOS Computational Biology》上的这项研究所要回答的核心问题。研究团队的目标是:利用来自不同参数设置的多个ABM模拟实验(即多实验数据),学习能够泛化到整个参数空间的、参数化的微分方程模型。他们将此框架统称为“多实验方程学习”(Multi-experiment Equation Learning, ME-EQL)。
为了攻克这一难题,研究人员匠心独运地提出了两种并行的ME-EQL方法,并像两位风格迥异的侦探,用不同的策略对同一谜案展开调查。他们的“案发现场”是一个经典的、在计算生物学中广泛使用的空间生-死-迁移代理基模型。在这个模型中,代理(可代表细胞或动物)在一个二维格子上活动,以速率Rp增殖,以速率Rd= Rp/2死亡,并以固定速率Rm= 1迁移到相邻位点。研究人员在不同增殖率Rp下运行ABM模拟,记录群体密度随时间变化的平均数据,作为方程学习的“训练素材”。
第一种方法叫“逐个多实验方程学习”(One-at-a-time ME-EQL, OAT ME-EQL)。这位“侦探”的策略是分而治之,再寻求统一。他先独立地为每一个Rp参数下的数据集,运用传统的EQL流程(基于SINDy的稀疏回归)学习出一个独立的微分方程模型。这会产生一系列可能结构各异、系数不同的方程。接下来,他像一位数据分析师,从这些独立发现的模型中,筛选出出现频率最高的那个共同模型结构。然后,他将这个共同结构中各项的系数提取出来,将它们视为参数Rp的函数,并利用样条插值等技术,绘制出系数随Rp变化的连续曲线。最终,他得到了一个统一的、系数是Rp的连续函数的微分方程模型。这个模型不仅能完美拟合那些用于学习的参数点,还能“聪明地”预测从未见过的Rp值所对应的系统动态。
第二种方法叫“嵌入结构多实验方程学习”(Embedded structure ME-EQL, ES ME-EQL)。这位“侦探”则是一位偏好整体论的架构师。他的策略从一开始就追求统一。他在构建方程学习的候选函数库时,直接将变化的参数Rp作为一个变量嵌入到库函数中。例如,库中不仅包含C、C2这样的项,还包含RpC、RpC2这样的项,预先假设了系数与Rp的某种依赖关系(这里是线性)。然后,他将所有不同Rp下的实验数据合并成一个大型数据集,一次性进行稀疏回归,直接学出一个单一的、系数已包含Rp依赖关系的微分方程模型。这个方法一步到位,得到的模型天生就能处理不同的参数。
研究团队系统性地评估了这两种ME-EQL方法的性能。他们首先在一个“已知答案”的测试平台上练兵:使用一个带有噪声的经典生-死平均场模型(Mean-Field Model, MFM)生成数据。这个模型有精确的解析表达式,便于评估学习结果的准确性。然后,他们进入真正的挑战场:应用方法到前述空间生-死-迁移ABM生成的数据上,这里没有单一准确的微分方程能描述所有参数区间的行为。评估从多个维度展开:学习到的模型是否准确?能否泛化到训练时未见过的参数?更重要的是,学到的参数化模型能否反过来用于从单次ABM模拟数据中准确地推断出原始的ABM参数(如Rp)?
在“已知答案”的平均场模型数据上,研究展示了ME-EQL方法的强大学习能力。在无噪声和低噪声情况下,OAT ME-EQL和ES ME-EQL都能高精度地恢复出真实的模型系数和结构。即使只用5个或10个不同Rp的实验数据进行学习,得到的泛化模型在预测其余上百个Rp值对应的数据时,均方误差(MSE)也极低。值得注意的是,当数据信息量较少(如初始群体密度较高,动态范围窄)时,ES ME-EQL方法偶尔会学习到一个包含微小高阶项(如C3)的模型,尽管其实系数很小。而OAT ME-EQL通过选择“最常见模型结构”的机制,在这种情况下依然能稳健地识别出正确的模型形式,展现了其对于信息不足和噪声的鲁棒性。
在更具挑战性的代理基模型数据上,研究结果更加引人入胜。经典的、基于“充分混合”假设推导出的平均场模型,在空间效应显著的参数区间(尤其是Rp较大时)与ABM数据存在明显偏差。而两种ME-EQL方法则成功地学习到了能够更好匹配ABM动态的微分方程。这些方程的结构比简单的生-死逻辑斯蒂方程更复杂,包含了更高阶的项(如C4, C5),这暗示学到的模型可能以某种方式“捕捉”了ABM中未被显式建模的空间关联效应。
在泛化能力的终极测试中,OAT ME-EQL表现尤为突出。当使用仅5个或10个Rp值下的ABM数据学习后,将其泛化模型用于预测其他大量未见过的Rp值对应的ABM动态时,其预测误差(MSE)在大部分参数区间都显著低于ES ME-EQL方法和传统的平均场模型。特别是在初始条件为IC=0.05的情况下,OAT ME-EQL的泛化性能优势更加明显。而当初始条件变为IC=0.25,数据信息量减少时,OAT EQL(即单个参数学习)得到的模型结构一致性下降,导致OAT ME-EQL可用于插值的“共识模型”数据点变少,其泛化性能在参数空间两端有所下降,但在中部区域依然优于ES ME-EQL。这表明,数据的信息含量和模型结构的一致性对OAT ME-EQL的性能有关键影响,而ES ME-EQL由于强制学习单一结构,其表现相对更稳定但可能不够优化。
研究最令人印象深刻的发现体现在参数反演任务上。对于一个从未在训练中出现的Rp值所生成的、单次的、带有噪声的ABM模拟数据,研究人员尝试用三种模型来反推其Rp值:已知的平均场模型、ES ME-EQL学到的模型、以及OAT ME-EQL学到的模型。结果如图10所示:在空间效应较弱的小Rp区域,平均场模型反演误差最小;然而,在空间效应显著的中高Rp区域(>0.5),两个ME-EQL学到的模型,尤其是OAT ME-EQL模型,在反演ABM参数Rp的准确度上大幅超越了传统的平均场模型。这证明,ME-EQL不仅学到了能预测动态的方程,更重要的是学到了ABM参数与群体动态之间更本质、更精确的映射关系,从而能够实现更可靠的“逆向推理”。p的误差。">
通过对两种多实验方程学习方法的深入比较研究,本文得出了一系列重要结论。首先,两种ME-EQL方法(OAT和ES)均被证明是有效的框架,能够从多参数ABM数据中学习到泛化性良好的参数化微分方程模型。即使仅用5个参数点的实验数据,也能获得对广阔参数空间令人满意的预测能力,这为解决ABM计算成本高、难以用于大规模推断的难题提供了极具潜力的新工具。
其次,两种方法各有千秋,适用于不同情境。OAT ME-EQL在大多数测试中展现出更优的泛化性能和参数反演精度。它的优势在于对基础函数库的先验知识要求较低,且通过“共识筛选”机制对噪声和模型结构变异有一定鲁棒性。其挑战在于,当不同参数点学到的模型结构差异很大时,插值的基础会变弱。ES ME-EQL的优势在于其“一步到位”的统一性,天生产生一个连贯的参教化模型。但其性能高度依赖于预设函数库的合理性,如果参数在方程中的依赖关系与库中预设形式(如线性)不符,或系统行为根本不能用单一模型结构描述,其效果就会打折扣。
这项研究的意义远超其提出的具体方法。它在经典的解析推导与纯粹的数据驱动“黑箱”学习之间,架起了一座名为“可解释泛化”的桥梁。ME-EQL产出的模型既保持了微分方程的可解释性、兼容现有数学分析工具的优点,又获得了媲美更复杂方法(如神经网络)的跨参数泛化预测能力。这为复杂生物系统的建模带来了新的可能性:未来,研究人员可以对学到的参数化模型直接进行分岔分析、最优控制或不确定性量化,而这些分析的结果,因为模型与ABM参数间的准确映射,可以更可靠地反馈回对原始生物机制的理解。
展望未来,该工作开启了多个充满希望的方向。例如,将方法扩展到多参数同时变化的场景;结合弱形式SINDy以更好地处理噪声数据;探索更优的稀疏回归和超参数选择策略;以及最重要的,将ME-EQL应用于真实的、更为复杂的生物实验数据(如不同患者来源的肿瘤细胞系生长曲线),学习能够跨越不同实验条件或个体差异的统一动力学方程,从而增强模型在转化医学研究中的泛化能力和实用价值。这项工作标志着方程学习领域向着解决实际生物医学复杂性问题迈出了坚实而创新的一步。