Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models

📄 arXiv: 2504.13068v2 📥 PDF

作者: Sudesh Ramesh Bhagat, Ibne Farabi Shihab, Anuj Sharma

分类: cs.CL, cs.AI

发布日期: 2025-04-17 (更新: 2025-05-01)

期刊: 2025 IEEE 28th International Conference on Intelligent Transportation


💡 一句话要点

揭示事故叙事分类中准确率与专家一致性的悖论,并探索LLM在安全关键任务中的应用潜力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事故叙事分类 专家一致性 大型语言模型 可解释性 安全关键任务

📋 核心要点

  1. 现有深度学习模型在事故叙事分类中,单纯追求高准确率,忽略了与领域专家知识的对齐,导致模型决策缺乏可解释性。
  2. 该研究提出将专家一致性作为模型评估的重要指标,并探索大型语言模型(LLM)在提升专家对齐方面的潜力。
  3. 实验结果表明,LLM虽然准确率不如传统深度学习模型,但在与专家意见一致性方面表现更优,且更依赖上下文信息。

📝 摘要(中文)

本研究调查了深度学习(DL)模型在分类事故叙事时的准确率与专家一致性之间的关系。我们评估了五个DL模型(包括BERT变体、USE和零样本分类器)以及四个大型语言模型(LLM):GPT-4、LLaMA 3、Qwen和Claude。研究结果表明,技术准确率较高的模型通常与人类专家的协议较低,而LLM尽管准确率较低,但表现出更强的专家一致性。我们使用Cohen's Kappa和主成分分析(PCA)来量化和可视化模型-专家协议,并使用SHAP分析来解释错误分类。结果表明,与专家对齐的模型更依赖于上下文和时间线索,而不是特定位置的关键词。这些发现表明,仅凭准确率不足以满足安全关键的NLP任务。我们主张将专家协议纳入模型评估框架,并强调LLM作为事故分析管道中可解释工具的潜力。

🔬 方法详解

问题定义:论文旨在解决事故叙事分类任务中,现有深度学习模型虽然准确率高,但与领域专家的判断存在偏差的问题。现有方法过度依赖关键词匹配,缺乏对事故上下文和时间信息的理解,导致模型决策与专家认知不一致,在安全关键领域存在潜在风险。

核心思路:论文的核心思路是强调模型与领域专家的对齐,认为在安全关键领域,模型的可解释性和与专家知识的一致性比单纯的准确率更重要。通过引入专家一致性作为评估指标,并探索大型语言模型(LLM)在理解上下文和时间信息方面的优势,来提升模型在事故叙事分类任务中的表现。

技术框架:论文的技术框架主要包括以下几个部分:1) 数据集构建:收集包含事故叙事和专家标注的数据集。2) 模型选择:选择包括BERT变体、USE和零样本分类器等深度学习模型,以及GPT-4、LLaMA 3、Qwen和Claude等大型语言模型。3) 评估指标:使用准确率、Cohen's Kappa系数等指标评估模型性能,其中Cohen's Kappa系数用于量化模型与专家的一致性。4) 可视化分析:使用主成分分析(PCA)可视化模型和专家在特征空间中的分布,使用SHAP分析解释模型的预测结果。

关键创新:论文的关键创新在于:1) 提出了“准确率不等于一致性”的观点,强调在安全关键领域,模型与领域专家的对齐比单纯的准确率更重要。2) 引入专家一致性作为模型评估的重要指标,并使用Cohen's Kappa系数进行量化。3) 探索了大型语言模型(LLM)在提升专家对齐方面的潜力,发现LLM更依赖上下文和时间信息,而非关键词匹配。

关键设计:论文的关键设计包括:1) 选择了多种深度学习模型和大型语言模型进行对比实验,以全面评估不同模型的性能。2) 使用Cohen's Kappa系数作为评估指标,以量化模型与专家的一致性。3) 使用SHAP分析解释模型的预测结果,以揭示模型决策的依据。4) 通过PCA可视化模型和专家在特征空间中的分布,以直观展示模型与专家之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,传统深度学习模型虽然在准确率上表现较好,但与人类专家的意见一致性较低。大型语言模型(LLM)如GPT-4、LLaMA 3、Qwen和Claude,虽然准确率略低于传统模型,但在与专家意见一致性方面表现更优。SHAP分析表明,专家对齐的模型更依赖上下文和时间线索,而非位置关键词。

🎯 应用场景

该研究成果可应用于智能交通、航空安全、医疗事故分析等安全关键领域。通过构建与专家知识对齐的事故分析模型,可以辅助专家进行事故原因分析、风险评估和预防措施制定,提高安全保障水平,降低事故发生率。未来,可以将该方法推广到其他需要领域专家知识的NLP任务中。

📄 摘要(原文)

This study investigates the relationship between deep learning (DL) model accuracy and expert agreement in classifying crash narratives. We evaluate five DL models -- including BERT variants, USE, and a zero-shot classifier -- against expert labels and narratives, and extend the analysis to four large language models (LLMs): GPT-4, LLaMA 3, Qwen, and Claude. Our findings reveal an inverse relationship: models with higher technical accuracy often show lower agreement with human experts, while LLMs demonstrate stronger expert alignment despite lower accuracy. We use Cohen's Kappa and Principal Component Analysis (PCA) to quantify and visualize model-expert agreement, and employ SHAP analysis to explain misclassifications. Results show that expert-aligned models rely more on contextual and temporal cues than location-specific keywords. These findings suggest that accuracy alone is insufficient for safety-critical NLP tasks. We argue for incorporating expert agreement into model evaluation frameworks and highlight the potential of LLMs as interpretable tools in crash analysis pipelines.