《Asian Transport Studies》:The analysis of accident risk factors based on the similarity between the contribution distribution of accident risk prediction models and traffic state contour maps
编辑推荐:
大量研究探讨了高速公路交通条件与事故风险之间的关系,但基于深度学习模型的可解释性研究仍较为有限。本研究旨在通过解析基于卷积神经网络(CNN)的事故风险预测模型(ARPM)预测结果所依赖的时空特征,识别事故风险因素。ARPM采用ETC 2.0探针数据生成的车辆轨
大量研究探讨了高速公路交通条件与事故风险之间的关系,但基于深度学习模型的可解释性研究仍较为有限。本研究旨在通过解析基于卷积神经网络(CNN)的事故风险预测模型(ARPM)预测结果所依赖的时空特征,识别事故风险因素。ARPM采用ETC 2.0探针数据生成的车辆轨迹图进行训练,用于预测未来30分钟内的事故发生概率。在阈值设定为0.43的条件下,该模型在测试数据集上的召回率(Recall)为0.233,精确率(Precision)为0.177,F1值为0.201,表明在事故样本高度不平衡的数据集下具有合理的预测性能。研究引入梯度加权类激活映射(Grad-CAM)可视化影响模型输出的贡献分布。为解析这些关注模式,研究人员计算了Grad-CAM贡献图与流量(Flow)、速度(Speed)及密度(Density)交通状态等高线图之间的余弦相似度(Cosine Similarity)。结果显示,密度等高线与贡献图的相似度显著高于流量或速度,表明模型在预测事故风险时倾向于关注与密度相关的交通模式。此外,密度相似度较高的样本在未来发生追尾碰撞和接触碰撞的概率更高,说明密度相关的交通状态与拥堵相关事故风险密切相关。研究结果表明,基于Grad-CAM的相似度分析可为基于CNN的事故风险预测背后的交通条件提供可解释的见解。
本研究发表于《Asian Transport Studies》。随着日本高速公路交通事故下降趋缓,传统线性统计模型难以捕捉交通流的复杂时空交互作用,且现有深度学习模型多为“黑箱”,缺乏对其决策依据的定量验证。为此,研究人员利用日本东名高速厚木至横滨町田段2020年至2021年的ETC 2.0探针数据,构建了基于卷积神经网络(CNN)的事故风险预测模型(ARPM),并提出了一套结合梯度加权类激活映射(Grad-CAM)与余弦相似度的定量可解释性框架,旨在揭示模型关注的交通特征与物理交通状态之间的对应关系。
在开展研究过程中,研究人员采用了几项关键技术方法。数据采集方面,选取东名高速15.34公里路段,整合了441起事故记录、ETC 2.0探针车轨迹数据及固定检测器数据。模型构建方面,基于VGG16架构改进CNN,引入批量归一化(Batch Normalization)与SE模块(Squeeze-and-Excitation block),输入为标准化渗透率的时空轨迹图,预测未来30分钟事故概率。可解释性分析方面,应用Grad-CAM提取模型关注区域,依据Edie定义计算相同时空窗下的流量、密度、速度等高线图,并通过余弦相似度量化两者空间模式的匹配程度。统计分析方面,对比真阳性(TP)与假阳性(FP)样本的相似度差异,并结合事故类型分析相似度与实际发生率的关系。
研究结果部分如下:
4.1 模型训练结果
研究人员采用下采样(Under-sampling)处理类别不平衡问题,正负样本比例设为8:1。模型在第9个训练周期达到最佳性能,在测试集阈值为0.43时,召回率为0.233,精确率为0.177,F1值为0.201。虽然数值绝对值不高,但在事故率低于2%的高度不平衡数据中,模型表现出较高的召回率,符合交通安全应用中降低漏报的优先级需求。预测概率与实际事故率呈正相关趋势,证明模型有效捕捉了相对风险等级。
4.2 基于余弦相似度的分析
4.2.1 相似度分析样本
针对模型预测为事故的211个样本进行分析,发现密度(Density)与贡献分布的余弦相似度平均值最高(0.56),显著高于流量(0.50)和速度(0.45)。这表明ARPM在推断事故风险时,其关注点主要集中在高密度相关的交通模式上。
4.2.2 余弦相似度水平与输出值的关系
研究发现,相似度高并不意味着模型输出的事故概率一定高。对于流量和密度,相似度高于平均水平的样本,其预测概率反而显著低于相似度低的样本。这说明模型的最终输出不仅仅依赖于静态的密度模式,还结合了动态变化的时空特征。
4.2.3 真阳性与假阳性样本的比较
将预测为事故的样本分为真阳性(TP)和假阳性(FP),对比发现两组在流量和密度的相似度上无显著差异,但在速度相似度上,TP组(0.389)显著低于FP组(0.459)。这暗示实际发生事故的情况可能较少表现为单纯的速度分布模式。
4.2.4 余弦相似度水平与事故发生率的关系
分组统计显示,在密度相似度高的样本中,未来发生追尾和接触碰撞的比率显著高于密度相似度低的样本。而在速度相似度高的样本中,这两类事故的发生率则较低。这证实了密度相关的交通状态与特定事故类型的强关联性。
4.2.5 讨论
研究结果与前人关于“高密度和混合流增加事故风险”的结论一致,验证了Grad-CAM关注区域的物理合理性。同时指出,模型可能对瞬态变化(如急减速波)更为敏感,而非稳定的拥堵状态。
结论与局限性部分总结如下:
研究人员得出结论,基于ETC 2.0轨迹数据的CNN模型能够有效学习事故前的时空特征。通过Grad-CAM与交通状态等高线图的余弦相似度分析,证实模型主要关注密度相关模式,且该模式与追尾及接触事故的高发率密切相关。这一框架成功地将深度学习模型的“黑箱”输出与交通流理论建立了定量联系。
然而,研究存在一定局限性。数据局限于单一高速公路路段,未涵盖超车、变道等微观行为细节,且余弦相似度仅反映空间模式匹配而非因果关系。此外,模型预测性能仍有提升空间,未来研究应纳入更多动态交通指标及环境因素,以增强模型的泛化能力和解释深度。