From Narratives to Probabilistic Reasoning: Predicting and Interpreting Drivers' Hazardous Actions in Crashes Using Large Language Model

📄 arXiv: 2510.13002v1 📥 PDF

作者: Boyou Chen, Gerui Xu, Zifei Wang, Huizhong Guo, Ananna Ahmed, Zhaonan Sun, Zhen Hu, Kaihan Zhang, Shan Bao

分类: cs.AI, cs.LG

发布日期: 2025-10-14


💡 一句话要点

利用大型语言模型从事故叙述中预测和解释驾驶员危险行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 驾驶员危险行为 交通事故分析 自然语言处理 概率推理

📋 核心要点

  1. 现有大型交通事故数据库中驾驶员危险行为(DHA)的标注依赖人工,存在不一致和效率低下的问题。
  2. 论文提出利用微调的大型语言模型(LLM)从事故文本叙述中自动推断DHA,提高标注的准确性和可解释性。
  3. 实验结果表明,微调后的Llama 3.2 1B模型在DHA预测任务上达到了80%的准确率,优于传统机器学习模型。

📝 摘要(中文)

车辆碰撞涉及道路使用者之间的复杂互动、瞬间决策和具有挑战性的环境条件。其中,两车碰撞最为普遍,约占道路碰撞事故的70%,对交通安全构成重大挑战。识别驾驶员危险行为(DHA)对于理解碰撞原因至关重要,但大型数据库中DHA数据的可靠性受到不一致和劳动密集型手动编码实践的限制。本文提出了一种创新的框架,利用微调的大型语言模型自动从文本碰撞叙述中推断DHA,从而提高DHA分类的有效性和可解释性。使用来自MTCF的五年两车碰撞数据,我们在详细的碰撞叙述上微调了Llama 3.2 1B模型,并将其性能与传统的机器学习分类器(包括随机森林、XGBoost、CatBoost和神经网络)进行了基准测试。微调后的LLM实现了80%的总体准确率,超过了所有基线模型,并在数据不平衡的情况下表现出显著的改进。为了提高可解释性,我们开发了一种概率推理方法,分析了原始测试集和三个有针对性的反事实场景(驾驶员分心和年龄的变化)中模型输出的变化。我们的分析表明,引入一个驾驶员的分心会大大增加“一般不安全驾驶”的可能性;两个驾驶员的分心会最大限度地提高“双方驾驶员都采取了危险行为”的可能性;而分配一个青少年驾驶员会显著提高“速度和停车违规”的可能性。我们的框架和分析方法为大规模自动化DHA检测提供了一个强大且可解释的解决方案,为交通安全分析和干预提供了新的机会。

🔬 方法详解

问题定义:论文旨在解决交通事故数据库中驾驶员危险行为(DHA)标注不准确、效率低下的问题。现有方法依赖人工标注,耗时耗力,且不同标注员之间可能存在主观差异,导致数据质量不高。

核心思路:论文的核心思路是利用大型语言模型(LLM)的自然语言理解能力,从事故的文本叙述中自动提取DHA信息。通过对LLM进行微调,使其能够更好地理解交通事故语境,从而提高DHA预测的准确性和效率。

技术框架:该框架主要包含以下几个阶段:1) 数据收集与预处理:收集MTCF的交通事故数据,包括事故文本叙述和人工标注的DHA标签。对文本数据进行清洗和预处理,例如去除噪声、分词等。2) 模型选择与微调:选择Llama 3.2 1B作为基础LLM,并使用交通事故数据对其进行微调,使其适应DHA预测任务。3) 模型评估与比较:将微调后的LLM与传统的机器学习模型(如随机森林、XGBoost、CatBoost和神经网络)进行比较,评估其性能。4) 概率推理与解释:通过分析模型在不同反事实场景下的输出变化,进行概率推理,提高模型的可解释性。

关键创新:该论文的关键创新在于将大型语言模型应用于交通事故DHA预测任务,并提出了一种概率推理方法来提高模型的可解释性。与传统的机器学习方法相比,LLM能够更好地理解事故文本叙述中的语义信息,从而提高预测准确率。概率推理方法则能够帮助理解模型预测结果背后的原因,为交通安全分析提供更深入的见解。

关键设计:论文使用了Llama 3.2 1B模型,并使用交叉熵损失函数进行微调。为了提高模型的可解释性,论文设计了三个反事实场景:驾驶员分心、驾驶员年龄变化和双方驾驶员分心。通过分析模型在这些场景下的输出变化,可以了解不同因素对DHA预测的影响。

📊 实验亮点

微调后的Llama 3.2 1B模型在DHA预测任务上达到了80%的总体准确率,显著优于传统的机器学习模型,包括随机森林、XGBoost、CatBoost和神经网络。尤其在数据不平衡的情况下,LLM的优势更加明显。通过概率推理分析,揭示了驾驶员分心和年龄等因素对DHA预测的影响。

🎯 应用场景

该研究成果可应用于大规模交通事故数据分析,自动识别驾驶员危险行为,为交通安全策略制定和干预措施提供数据支持。此外,该方法还可以扩展到其他安全领域,例如航空安全、工业安全等,用于自动分析事故报告,识别潜在的安全风险。

📄 摘要(原文)

Vehicle crashes involve complex interactions between road users, split-second decisions, and challenging environmental conditions. Among these, two-vehicle crashes are the most prevalent, accounting for approximately 70% of roadway crashes and posing a significant challenge to traffic safety. Identifying Driver Hazardous Action (DHA) is essential for understanding crash causation, yet the reliability of DHA data in large-scale databases is limited by inconsistent and labor-intensive manual coding practices. Here, we present an innovative framework that leverages a fine-tuned large language model to automatically infer DHAs from textual crash narratives, thereby improving the validity and interpretability of DHA classifications. Using five years of two-vehicle crash data from MTCF, we fine-tuned the Llama 3.2 1B model on detailed crash narratives and benchmarked its performance against conventional machine learning classifiers, including Random Forest, XGBoost, CatBoost, and a neural network. The fine-tuned LLM achieved an overall accuracy of 80%, surpassing all baseline models and demonstrating pronounced improvements in scenarios with imbalanced data. To increase interpretability, we developed a probabilistic reasoning approach, analyzing model output shifts across original test sets and three targeted counterfactual scenarios: variations in driver distraction and age. Our analysis revealed that introducing distraction for one driver substantially increased the likelihood of "General Unsafe Driving"; distraction for both drivers maximized the probability of "Both Drivers Took Hazardous Actions"; and assigning a teen driver markedly elevated the probability of "Speed and Stopping Violations." Our framework and analytical methods provide a robust and interpretable solution for large-scale automated DHA detection, offering new opportunities for traffic safety analysis and intervention.