CrashChat: A Multimodal Large Language Model for Multitask Traffic Crash Video Analysis

作者: Kaidi Liang, Ke Li, Xianbiao Hu, Ruwen Qin

分类: cs.CV, cs.AI

发布日期: 2025-12-21

🔗 代码/项目: GITHUB

💡 一句话要点

提出CrashChat，用于多任务交通碰撞视频分析的多模态大语言模型

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 交通碰撞分析 视频理解 多任务学习 指令微调

📋 核心要点

现有模型难以在统一框架内完成碰撞识别、时间定位和高层次视频理解等多项碰撞视频分析任务，缺乏有效的训练策略。
CrashChat基于VideoLLaMA3，通过指令微调获取领域知识，并采用任务解耦和分组的多任务学习策略，优化联合学习。
实验表明，CrashChat在碰撞识别、定位和描述任务上均优于现有MLLM和传统视觉方法，显著提升了性能和文本质量。

📝 摘要（中文）

本文提出CrashChat，一个用于多任务交通碰撞分析的多模态大语言模型(MLLM)，它构建于VideoLLaMA3之上。针对驾驶视频数据日益增长的需求，以及自动驾驶中交通安全研究和责任归属的需求，自动化的碰撞视频分析至关重要。由于视频数据中碰撞事件复杂的时空动态以及涉及的多样化分析需求，碰撞视频分析是一个具有挑战性的多任务问题，它需要具备碰撞识别、时间定位和高层次视频理解能力。现有的模型无法在统一框架内执行所有这些任务，并且针对此类模型的有效训练策略仍未得到充分探索。CrashChat通过指令微调获得领域特定知识，并采用基于任务解耦和分组的新型多任务学习策略，从而最大限度地发挥任务组内和跨任务组联合学习的优势，同时减轻负迁移。在整合的公共数据集上的数值实验表明，CrashChat在模型规模和传统视觉方法上始终优于现有的MLLM，实现了最先进的性能。它在碰撞识别方面达到了接近完美的准确率，在碰撞定位方面提高了176％，在更具挑战性的碰撞前定位方面提高了40％。与通用MLLM相比，它大大提高了碰撞描述和推理任务中的文本准确性和内容覆盖率，BLEU得分提高了0.18-0.41，ROUGE得分提高了0.18-0.42。除了强大的性能外，CrashChat还是一个方便的、端到端的分析工具，可以随时进行实际部署。

🔬 方法详解

问题定义：论文旨在解决交通碰撞视频分析中的多任务问题，包括碰撞识别、时间定位（碰撞前和碰撞中）以及高层次的视频理解（例如，碰撞描述和推理）。现有方法要么无法在一个统一的框架内处理所有这些任务，要么在处理复杂时空动态和多样化分析需求时表现不佳。此外，如何有效地训练一个能够胜任这些任务的多模态模型也是一个挑战。

核心思路：论文的核心思路是利用多模态大语言模型（MLLM）的强大能力，通过指令微调使其适应交通碰撞视频分析的特定领域。同时，采用任务解耦和分组的多任务学习策略，旨在最大化联合学习的优势，并减轻不同任务之间的负迁移。通过将相关任务分组，模型可以更好地共享知识，从而提高整体性能。

技术框架：CrashChat构建于VideoLLaMA3之上，整体框架包含以下几个主要模块：1) 视频编码器：用于提取视频帧的视觉特征。2) 多模态连接器：将视觉特征与文本特征对齐，使模型能够理解视频内容。3) 大语言模型（LLM）：用于生成文本描述、进行推理和回答问题。训练过程包括指令微调阶段，使用包含各种交通碰撞场景和分析任务的指令数据集来训练模型。

关键创新：论文的关键创新在于提出了一个专门针对交通碰撞视频分析的多模态大语言模型，并设计了一种新颖的多任务学习策略。这种策略通过任务解耦和分组，有效地利用了不同任务之间的相关性，避免了负迁移，从而提高了模型的整体性能。此外，CrashChat能够在一个统一的框架内处理多种分析任务，简化了分析流程。

关键设计：在多任务学习策略中，论文将任务分为不同的组，例如，碰撞识别和定位可以分为一组，碰撞描述和推理可以分为另一组。针对不同的任务组，可以采用不同的损失函数和训练策略。指令微调阶段，设计了包含各种交通碰撞场景和分析任务的指令数据集，用于训练模型。具体参数设置和网络结构细节在论文中提供了更详细的描述。

🖼️ 关键图片

📊 实验亮点

CrashChat在多个交通碰撞分析任务上取得了显著的性能提升。在碰撞识别方面达到了接近完美的准确率，碰撞定位方面提高了176%，碰撞前定位方面提高了40%。在碰撞描述和推理任务中，BLEU得分提高了0.18-0.41，ROUGE得分提高了0.18-0.42，表明其文本生成质量显著优于现有模型。

🎯 应用场景

CrashChat可应用于自动驾驶安全系统，辅助事故责任判定，提升交通安全研究效率。它能自动分析事故视频，提供碰撞识别、定位和描述，为保险公司、执法部门和研究机构提供有价值的信息，并可用于改进驾驶员辅助系统和自动驾驶算法。

📄 摘要（原文）

Automating crash video analysis is essential to leverage the growing availability of driving video data for traffic safety research and accountability attribution in autonomous driving. Crash video analysis is a challenging multitask problem due to the complex spatiotemporal dynamics of crash events in video data and the diverse analytical requirements involved. It requires capabilities spanning crash recognition, temporal grounding, and high-level video understanding. Existing models, however, cannot perform all these tasks within a unified framework, and effective training strategies for such models remain underexplored. To fill these gaps, this paper proposes CrashChat, a multimodal large language model (MLLM) for multitask traffic crash analysis, built upon VideoLLaMA3. CrashChat acquires domain-specific knowledge through instruction fine-tuning and employs a novel multitask learning strategy based on task decoupling and grouping, which maximizes the benefit of joint learning within and across task groups while mitigating negative transfer. Numerical experiments on consolidated public datasets demonstrate that CrashChat consistently outperforms existing MLLMs across model scales and traditional vision-based methods, achieving state-of-the-art performance. It reaches near-perfect accuracy in crash recognition, a 176\% improvement in crash localization, and a 40\% improvement in the more challenging pre-crash localization. Compared to general MLLMs, it substantially enhances textual accuracy and content coverage in crash description and reasoning tasks, with 0.18-0.41 increases in BLEU scores and 0.18-0.42 increases in ROUGE scores. Beyond its strong performance, CrashChat is a convenient, end-to-end analytical tool ready for practical implementation. The dataset and implementation code for CrashChat are available at https://github.com/Liangkd/CrashChat.

CrashChat: A Multimodal Large Language Model for Multitask Traffic Crash Video Analysis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理