《Aerospace》:Symbolic Regression for Air Transport Delay Analysis: A Viable Alternative to Classical Approaches?
编辑推荐:
摘要:航班延误是航空运输最主要运行挑战之一,会带来显著的经济、社会及环境影响,已有多种方法论被用于研究该现象。本文探讨使用symbolic regression(符号回归,SR)——一种在数据空间中搜索解析表达式以识别紧凑且可解释模型来刻画给定数据集的数据驱动
摘要:航班延误是航空运输最主要运行挑战之一,会带来显著的经济、社会及环境影响,已有多种方法论被用于研究该现象。本文探讨使用symbolic regression(符号回归,SR)——一种在数据空间中搜索解析表达式以识别紧凑且可解释模型来刻画给定数据集的数据驱动技术——表征欧洲最繁忙机场的延误状况、其随时间演化规律、对自身历史值的依赖程度,以及跨机场的延误传播规律,旨在评估该方法的可行性及其相较于标准统计模型和因果模型的附加价值。概念验证结果表明:symbolic regression在揭示延误动态中可解释的函数关系方面展现出明确潜力,但其应用受限于较高的计算成本和随机性本质。
论文解读:《Symbolic Regression for Air Transport Delay Analysis: A Viable Alternative to Classical Approaches?》
该研究发表于MDPI期刊《Aerospace》。航空运输中航班延误会造成燃油额外消耗、机组加班、地面保障费用增加,以及旅客转机失败和航空公司声誉受损等直接与间接损失,且初始延误易演变为反应式(次级)延误(reactionary/secondary delays)并在网络中放大。既有研究多采用描述性统计、排队模型、时间序列分析、网络理论方法、causality test(因果检验)及machine learning(ML,机器学习)/Deep Learning(DL,深度学习)。这些方法中,前者需预设分布或线性假设,后者多为黑箱(black-box)模型缺乏可解释性。symbolic regression(符号回归,SR)可在不预设模型结构前提下从数据中发现紧凑可解释的symbolic expression(符号解析式),兼顾检测复杂关系与结果透明化,但在航空延误领域尚无应用报道。为此,研究人员以欧洲前20繁忙机场2015年3月至2019年12月逐小时平均到达延误为对象,分别用SR构建单机场自回归模型和跨机场延误传播模型,并与Granger Causality test(格兰杰因果检验)及Gradient Boosting(GB,梯度提升)、Random Forest(RF,随机森林)回归对比,评估SR作为航空延误分析替代方法的可行性及附加价值。
主要关键技术方法
研究人员提取EUROCONTROL Aviation Data Repository中2015—2019年每年3、6、9、12月欧洲商业航班数据,以实际与计划着陆时刻差计算到达延误,按机场聚合为逐小时平均到达延误时间序列,选取起降量前20的机场。采用PySR(version 1.5.9)Python包实施SR,基于multi-population evolutionary algorithm(多群体进化算法)执行evolve–simplify–optimise循环(变异、交叉、常数BFGS优化),在Pareto frontier上维持不同复杂度非支配解,最大算子数设为7,迭代40代、种群200个体,基本运算符含+、-、×、÷、sin、cos、ReLU、erf等。单机场建模为di,t=f(di,t-1…di,t-6)+ε;跨机场建模为di,t=f(di,t-1…di,t-6, dj,t-1…dj,t-6)+ε。显著性检验通过对目标或源机场延误序列随机重排(shuffled time series)破坏时序结构并计算Z-Score;稳定性检验重复SR运行200次;预测性能对比以训练集拟合SR、GB、RF后于测试集计算MSE;跨机场因果性与pairwise Granger Causality test(p-value)对照。
研究结果
3. Analysis of Individual Airports(单个机场延误动态分析)
研究人员以过去6个时刻的逐小时平均到达延误预测当前时刻延误,SR对欧洲前20机场给出最优函数。多数机场呈dt≈a·dt-1+b的线性自回归关系;部分机场引入trigonometric function(三角函数)或ReLU(Rectified Linear Unit,修正线性单元),其中ReLU形式表明负延误(早到)不向后传播——与实际运行中早到不改变后续离港时间相符。所有Z-Score为负,显著优于shuffled null model。对伦敦希思罗(EGLL, London Heathrow)重复SR 200次,推断方程恒为dt=a·dt-1+b,a≈0.57、b≈2.3分布集中,MSE随迭代次数下降且标准差减小,证明SR结果稳定。按滑动时间窗分段独立运行SR发现,巴黎戴高乐(LFPG, Paris Charles de Gaulle)与阿姆斯特丹史基浦(EHAM, Amsterdam Schiphol)MSE平稳,EGLL在2017年中MSE异常升高,可能与2017年英国航空IT故障导致大规模取消及后续连锁影响有关。预测精度对比显示SR与GB、RF的平均平方误差相当(GB高约5.2×10-3,RF低约3.8×10-3),ML模型未显著改善精度,但SR给出显式解析式。
4. Analysis of Delay Propagation Between Airports(机场间延误传播分析)
研究人员纳入源机场过去6时刻延误与目的机场自身过去6时刻延误联合建模。按Z-Score排序取前十强影响机场对(如EDDF→LSZH、LSZH→EGLL等),多数关系呈非线性(仅EDDM→LFPG与EDDF→LFPG为线性),非线性多体现于dj,t-1项且常含ReLU,即主要传递延误符号(正延误才传播);同目的机场对各源机场函数形式相似或系数接近;部分对仅依赖源机场dj,t-1而非自身历史,暗示系统整体状态影响。SR输入虽含t-1至t-6,实际多仅选用t-1。右图显示SR Z-Score与Granger Causality test p-value弱相关(Pearson r=-0.52, p=0.008;Spearman ρ=-0.49, p=0.013)。最强因果对EDDF→LSZH经参数扫描确认wide minimum(宽谷极小值),改变时间滞后至t-2或t-3则MSE升至接近null model,证实t-1滞后合理性;若禁用高级算子仅留加减乘,该跨机场关系丢失,退化为LSZH自回归。三元机场(EGLL、LIRF、LSZH)多变量SR显示LIRF与EGLL动态主要依赖LSZH历史,原EGLL→LIRF关系消失,可能为假阳性或SR未能捕获多变量耦合。
讨论与结论翻译
Symbolic regression(SR)可提供延误自演化和跨机场传播的显式functional form(函数形式),兼具黑箱ML的灵活探测能力与参数模型的可解释性,弥补了传统linear auto-regressive model(线性自回归模型)的形式局限和DL的不可解释缺陷。代价在于计算成本:SR探索无限函数空间,即使采用evolutionary algorithm(进化算法)仍需数十分钟至数小时(单机场单关系),而Granger Causality test仅需毫秒级;计算复杂度随机场数N呈O(N2)增长,百机场全网络分析在标准单机可达一年以上,且需多次重复以保证随机性下稳定性,故不适合实时应用。SR亦可整合入neuro-symbolic artificial intelligence(神经符号人工智能)或与NN(Neural Network,神经网络)结合用于network compression(网络压缩)。综上,SR能较传统方法更丰富地表征机场间延误传递的具体函数关系,但因较高计算负担尚不宜完全替代classical approaches(经典方法),更适合作为探索性分析或需明确机理解析式场景下的补充工具。