《Safety Science》:Decoding crash narratives: a comparative evaluation of large language models for accident cause classification
编辑推荐:
大型语言模型在交通事故分类中的性能对比研究。基于阿布扎比2886份事故报告的37类原因分类,评估ChatGPT-4、Claude-3 Opus、Mistral Small 3.2、DeepSeek-V3和Gemini-1.5 Pro的准确率(最高0.7308)、精确度(最高0.7588)及计算效率。研究表明ChatGPT和Mistral表现最优,Gemini-1.5 Pro相对落后,验证了LLMs在非结构化文本处理中的潜力与局限性。
Ammar Aljasmi|Luqman Ali|Vinayak Dixit|Hamad AlJassmi
澳大利亚新南威尔士州悉尼北南威尔士大学土木与环境工程学院,NSW 2052
摘要
从书面描述中分类交通事故原因对于提高道路安全性和制定资源分配策略至关重要。传统的事故分类方法依赖于严格的基于规则的系统和传统的机器学习模型,这些方法往往难以处理非结构化的事故描述,并且会忽略重要的上下文线索,从而限制了分类的准确性。这些不足限制了上下文的捕捉,降低了分类的准确性,也降低了它们在安全分析中的实用性。因此,本研究旨在比较几种先进的大型语言模型(LLMs)——ChatGPT-4、Claude-3 opus、Mistral small 3.2、DeepSeek-V3 和 Gemini-1.5 pro 在识别交通事故原因方面的表现。研究使用了来自阿布扎比交通部门的 2,886 份事故报告的数据集,涵盖了 37 个事故原因类别。这些模型被提供了事故描述,并采用零样本学习方法生成了单标签预测。然后通过准确性、精确度、召回率、F1 分数、未分类率、API 错误率和计算时间来评估它们的性能。实验结果表明,所有模型都表现出了良好的性能,其中 ChatGPT 的表现最好(准确性:0.7308;精确度:0.7588),其次是 Mistral(准确性:0.7065;精确度:0.7249)。在计算时间方面,ChatGPT 每次预测所需的时间略长(0.086 秒,而 Mistral 为 0.069 秒),但两者的 API 错误率都很低。错误分类的情况是由于描述通常模糊或不完整,导致模型难以预测正确的类别。这些发现为在交通安全应用中选择 LLM 提供了实际指导,平衡了分类性能与效率和可靠性之间的考虑。
引言
从描述中分类交通事故在交通规划、安全政策制定以及旨在减少事故和提高道路安全的基于 AI 的决策支持系统中发挥着重要作用(Zhao 等人,2025 年)。准确的事故原因分类对于交通管理部门部署有针对性的干预措施、优化资源分配和制定预防策略非常重要(?zeren 等人,2025 年)。传统的分类方法主要依赖于手动编码或统计模型,由于它们依赖于结构化数据并且难以捕捉文本事故报告中的复杂性,因此存在显著的限制(Sangare 等人,2020 年)。大型语言模型(LLMs)的出现标志着在交通规划和安全分析领域特定文本分类方面的重大进步(Smetana 等人,2024 年)。这些模型能够通过处理非结构化文本来提取交通事故背后的有用模式。LLMs 在各种交通应用中表现出色(Fan 等人,2024 年),提供了比传统方法更精细和准确的分析,从而支持更好的决策(Melton 等人,2025 年)。
LLMs 能够利用先进的文本分析技术从非结构化的事故叙述中提取复杂信息(Mumtarin 等人,2023 年)。这使它们能够识别传统方法可能忽略的关键因素,从而更有效地理解事故原因(Ghosh & Sadaphal,2023 年),进而有助于提高道路安全和流动性(Karim 等人,2025 年)。LLMs 还有助于开发全面的事故原因分类法,涵盖从驾驶员行为到环境条件等各种影响因素(Ayd?n 等人,2024 年)。通过模式识别和根本原因分析,LLMs 使交通管理部门能够设计出针对特定安全漏洞的干预措施,改善交通流量。尽管人们对 LLM 在文本分类应用中的兴趣日益增加,但目前仍缺乏针对交通事故分类的全面比较研究。这一空白使得交通机构和研究人员难以根据准确性、效率和成本效益等关键因素选择最合适的 LLM。
本研究通过对五种最先进的大型语言模型——ChatGPT-4、Claude-3 Opus、Mistral Small 3.2、DeepSeek-V3 和 Gemini-1.5-Pro 在交通事故原因分类任务中的表现进行全面评估,来填补这一空白。主要目标是利用来自阿布扎比交通部门的 2,886 份独特事故报告的全面数据集,这些报告被细致地分为 37 个不同的事故原因类别,来评估它们在准确分类事故原因方面的有效性。采用零样本学习方法,我们通过提供原始事故描述并获取单标签分类来评估每个模型的预测能力。这一基准测试提供了关于每个模型在这一特定应用中的优势和劣势的关键见解。此外,本研究还旨在确定在交通安全分析中利用 LLM 的最有效策略,同时考虑分类准确性和实际实施因素,如计算资源和 API 使用情况。通过系统地比较这些模型的性能,本研究为希望利用 AI 技术提高道路安全的交通专业人士和研究人员提供了有价值的指导。
本文的其余部分结构如下:第 2 节提供了关于现有交通事故分类方法和 LLM 在该领域新兴角色的全面文献综述。第 3 节讨论了方法论,包括数据集获取、提示工程和模型训练以及评估指标。第 4 节展示了我们的比较分析实验结果。第 5 节讨论了实际意义和应用。最后,第 6 节总结了本文的主要贡献、局限性和未来方向。
部分摘录
文献综述
交通事故仍然是一个全球性的重大挑战,需要有效的技术来识别根本原因,作为制定有效预防和干预策略的基础(Abdelrahman 等人,2025 年)。交通事故的分析和分类已经经历了几个不同的阶段,每个阶段都带来了创新,同时也伴随着固有的限制。
方法论
所提出的工作包括三个主要模块,如图 1 所示。第一个模块是数据获取和预处理,接着是第二模块中选定的大型语言模型的提示工程和部署。最后一个模块是评估模型在分类事故原因方面的有效性。
实验结果
本研究对五种领先的大型语言模型——ChatGPT-4、Claude-3 opus、Mistral small 3.2、DeepSeek-V3 和 Gemini-1.5-pro 进行了全面评估,使用了包含 2,886 个事故描述的数据集,这些事故描述被分为 37 个不同的事故原因类别。所有模型都使用了零样本提示框架进行测试,其性能通过一系列指标进行了评估,包括准确性、精确度、召回率、F1 分数、F3 分数、Cohen’s Kappa 和 MCC。
讨论
本研究对五种最先进的大型语言模型在交通事故分类方面的全面评估揭示了语言模型在特定领域应用中的当前能力和局限性的一些关键见解。我们的分析显示了一个明显的三层性能分层:ChatGPT 和 Mistral small 3.2 表现最佳,Claude-3 opus 和 DeepSeek-V3 处于中间层次,而 Gemini-1.5-pro 的表现相对较差。这一层次结构表明,
结论
本研究对五种大型语言模型——ChatGPT(ChatGPT)、Claude 3 Opus、Mistral Small 3.2、DeepSeek-V3 和 Gemini1.5-pro 在从 2,886 个非结构化事故描述中分类事故原因的任务进行了全面比较评估,这些描述涵盖了 37 个原因类别。从上述讨论中可以得出结论,LLMs 在革命化交通事故分析方面显示出巨大潜力,尽管它们的能力存在显著差异。
局限性、泛化能力和未来研究
虽然本研究基于阿布扎比的事故数据,但所提出的方法论框架旨在广泛适用于多个地区。使用零样本大型语言模型、标准化的提示设计和模型无关的评估指标,可以在不修改核心分析流程的情况下直接在其他司法管辖区的事故数据集上进行复制。然而,绝对性能值的泛化能力
CRediT 作者贡献声明
Ammar AlJasmi:撰写 – 审阅与编辑、撰写 – 原稿、方法论、数据管理、概念化。Luqman Ali:撰写 – 审阅与编辑、撰写 – 原稿、软件、方法论、概念化。Vinayak Dixit:撰写 – 审阅与编辑、撰写 – 原稿、监督、概念化。Hamad AlJassmi:撰写 – 审阅与编辑、撰写 – 原稿、监督、方法论、概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。