基于事故风险预测模型贡献分布与交通状态等高线图相似性的事故风险因素分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Asian Transport Studies》：The analysis of accident risk factors based on the similarity between the contribution distribution of accident risk prediction models and traffic state contour maps

【字体：大中小】 时间：2026年05月25日 来源：Asian Transport Studies 2.2

编辑推荐：

　　大量研究探讨了高速公路交通条件与事故风险之间的关系，但基于深度学习模型的可解释性研究仍较为有限。本研究旨在通过解析基于卷积神经网络(CNN)的事故风险预测模型(ARPM)预测结果所依赖的时空特征，识别事故风险因素。ARPM采用ETC 2.0探针数据生成的车辆轨

大量研究探讨了高速公路交通条件与事故风险之间的关系，但基于深度学习模型的可解释性研究仍较为有限。本研究旨在通过解析基于卷积神经网络(CNN)的事故风险预测模型(ARPM)预测结果所依赖的时空特征，识别事故风险因素。ARPM采用ETC 2.0探针数据生成的车辆轨迹图进行训练，用于预测未来30分钟内的事故发生概率。在阈值设定为0.43的条件下，该模型在测试数据集上的召回率(Recall)为0.233，精确率(Precision)为0.177，F1值为0.201，表明在事故样本高度不平衡的数据集下具有合理的预测性能。研究引入梯度加权类激活映射(Grad-CAM)可视化影响模型输出的贡献分布。为解析这些关注模式，研究人员计算了Grad-CAM贡献图与流量(Flow)、速度(Speed)及密度(Density)交通状态等高线图之间的余弦相似度(Cosine Similarity)。结果显示，密度等高线与贡献图的相似度显著高于流量或速度，表明模型在预测事故风险时倾向于关注与密度相关的交通模式。此外，密度相似度较高的样本在未来发生追尾碰撞和接触碰撞的概率更高，说明密度相关的交通状态与拥堵相关事故风险密切相关。研究结果表明，基于Grad-CAM的相似度分析可为基于CNN的事故风险预测背后的交通条件提供可解释的见解。

本研究发表于《Asian Transport Studies》。随着日本高速公路交通事故下降趋缓，传统线性统计模型难以捕捉交通流的复杂时空交互作用，且现有深度学习模型多为“黑箱”，缺乏对其决策依据的定量验证。为此，研究人员利用日本东名高速厚木至横滨町田段2020年至2021年的ETC 2.0探针数据，构建了基于卷积神经网络(CNN)的事故风险预测模型(ARPM)，并提出了一套结合梯度加权类激活映射(Grad-CAM)与余弦相似度的定量可解释性框架，旨在揭示模型关注的交通特征与物理交通状态之间的对应关系。

在开展研究过程中，研究人员采用了几项关键技术方法。数据采集方面，选取东名高速15.34公里路段，整合了441起事故记录、ETC 2.0探针车轨迹数据及固定检测器数据。模型构建方面，基于VGG16架构改进CNN，引入批量归一化(Batch Normalization)与SE模块(Squeeze-and-Excitation block)，输入为标准化渗透率的时空轨迹图，预测未来30分钟事故概率。可解释性分析方面，应用Grad-CAM提取模型关注区域，依据Edie定义计算相同时空窗下的流量、密度、速度等高线图，并通过余弦相似度量化两者空间模式的匹配程度。统计分析方面，对比真阳性(TP)与假阳性(FP)样本的相似度差异，并结合事故类型分析相似度与实际发生率的关系。

研究结果部分如下：

4.1 模型训练结果

研究人员采用下采样(Under-sampling)处理类别不平衡问题，正负样本比例设为8:1。模型在第9个训练周期达到最佳性能，在测试集阈值为0.43时，召回率为0.233，精确率为0.177，F1值为0.201。虽然数值绝对值不高，但在事故率低于2%的高度不平衡数据中，模型表现出较高的召回率，符合交通安全应用中降低漏报的优先级需求。预测概率与实际事故率呈正相关趋势，证明模型有效捕捉了相对风险等级。

4.2 基于余弦相似度的分析

4.2.1 相似度分析样本

针对模型预测为事故的211个样本进行分析，发现密度(Density)与贡献分布的余弦相似度平均值最高（0.56），显著高于流量（0.50）和速度（0.45）。这表明ARPM在推断事故风险时，其关注点主要集中在高密度相关的交通模式上。

4.2.2 余弦相似度水平与输出值的关系

研究发现，相似度高并不意味着模型输出的事故概率一定高。对于流量和密度，相似度高于平均水平的样本，其预测概率反而显著低于相似度低的样本。这说明模型的最终输出不仅仅依赖于静态的密度模式，还结合了动态变化的时空特征。

4.2.3 真阳性与假阳性样本的比较

将预测为事故的样本分为真阳性(TP)和假阳性(FP)，对比发现两组在流量和密度的相似度上无显著差异，但在速度相似度上，TP组（0.389）显著低于FP组（0.459）。这暗示实际发生事故的情况可能较少表现为单纯的速度分布模式。

4.2.4 余弦相似度水平与事故发生率的关系

分组统计显示，在密度相似度高的样本中，未来发生追尾和接触碰撞的比率显著高于密度相似度低的样本。而在速度相似度高的样本中，这两类事故的发生率则较低。这证实了密度相关的交通状态与特定事故类型的强关联性。

4.2.5 讨论

研究结果与前人关于“高密度和混合流增加事故风险”的结论一致，验证了Grad-CAM关注区域的物理合理性。同时指出，模型可能对瞬态变化（如急减速波）更为敏感，而非稳定的拥堵状态。

结论与局限性部分总结如下：

研究人员得出结论，基于ETC 2.0轨迹数据的CNN模型能够有效学习事故前的时空特征。通过Grad-CAM与交通状态等高线图的余弦相似度分析，证实模型主要关注密度相关模式，且该模式与追尾及接触事故的高发率密切相关。这一框架成功地将深度学习模型的“黑箱”输出与交通流理论建立了定量联系。

然而，研究存在一定局限性。数据局限于单一高速公路路段，未涵盖超车、变道等微观行为细节，且余弦相似度仅反映空间模式匹配而非因果关系。此外，模型预测性能仍有提升空间，未来研究应纳入更多动态交通指标及环境因素，以增强模型的泛化能力和解释深度。

联系信箱：

粤ICP备09063491号

热点排行