Enhancing Multimodal Large Language Models for Safety-Critical Driving Video Analysis
作者: Tomaso Trinci, Henrique Piñeiro Monteagudo, Leonardo Taccari
分类: cs.CV, cs.LG
发布日期: 2026-05-21
备注: Accepted at the 2026 IEEE International Conference on Intelligent Transportation Systems (ITSC 2026)
💡 一句话要点
提出融合多模态信息的MLLM增强方案,用于安全驾驶视频分析
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 安全驾驶 视频分析 伪标签生成 遥测数据
📋 核心要点
- 现有多模态大语言模型在安全驾驶场景中,难以准确感知和推理罕见的高风险动态事件,如碰撞等。
- 本文提出一种流水线,融合视频帧、遥测数据和语义信息,生成高质量伪标签,用于训练MLLM识别安全关键事件。
- 实验表明,通过微调QwenVL-2.5模型,该方法在识别和解释安全关键事件方面取得了显著改进,且计算成本较低。
📝 摘要(中文)
本文提出了一种增强多模态大语言模型(MLLM)的流水线,用于安全关键驾驶场景的视频分析。现有MLLM在通用视觉理解方面表现出色,但在识别和推理碰撞或近碰撞等高风险动态事件方面存在局限性。该流水线融合了降采样视频帧、同步的高频遥测数据(IMU和GPS)以及来自专用计算机视觉模型的语义信息,从而增强MLLM的感知能力。该流水线生成高质量的伪标签,包括描述性字幕和问答对,专门用于训练MLLM识别和描述真实驾驶视频中的安全关键事件(SCE)。实验表明,通过DoRA适配器微调开源QwenVL-2.5模型,该方法在识别和解释安全关键事件方面取得了显著改进,且仅需不到50M的可训练参数和有限的计算资源。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在安全关键驾驶视频分析中,对罕见高风险动态事件(如碰撞或近碰撞)感知和推理能力不足的问题。现有方法难以有效利用多模态信息,导致对安全关键事件的识别精度较低。
核心思路:论文的核心思路是通过融合多种模态的信息,包括视频帧、高频遥测数据(IMU和GPS)以及来自专用计算机视觉模型的语义信息,来增强MLLM对驾驶场景的感知能力。通过生成高质量的伪标签,包括描述性字幕和问答对,来训练MLLM识别和描述安全关键事件。
技术框架:整体框架包含以下几个主要阶段:1) 数据采集:收集驾驶视频、IMU和GPS数据;2) 语义信息提取:利用计算机视觉模型提取视频帧中的语义信息;3) 多模态数据融合:将视频帧、遥测数据和语义信息进行融合;4) 伪标签生成:基于融合后的数据生成描述性字幕和问答对;5) 模型微调:使用生成的伪标签微调MLLM模型。
关键创新:论文的关键创新在于提出了一种有效融合多模态信息,并生成高质量伪标签的流水线,用于训练MLLM识别安全关键事件。该方法能够充分利用不同模态的信息,提高MLLM对驾驶场景的理解能力,从而更准确地识别和解释安全关键事件。
关键设计:论文使用降采样视频帧以降低计算成本。采用DoRA适配器微调开源QwenVL-2.5模型,仅需不到50M的可训练参数。伪标签生成过程的设计细节未知,但强调了生成描述性字幕和问答对的重要性,以提高MLLM的理解能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过该方法微调后的QwenVL-2.5模型在识别和解释安全关键事件方面取得了显著改进。具体的性能数据和对比基线未在摘要中明确给出,但强调了在有限计算资源下,仅使用不到50M的可训练参数就实现了性能提升。
🎯 应用场景
该研究成果可应用于高级驾驶辅助系统(ADAS)和自动驾驶系统,提高车辆对潜在危险场景的感知和预警能力,从而降低交通事故的发生率。此外,该方法还可用于驾驶员行为分析、交通安全监控等领域,具有重要的实际应用价值和广阔的发展前景。
📄 摘要(原文)
Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in general visual understanding. However, their application to safety-critical driving scenarios remains limited by an inability to accurately perceive and reason about rare high-stakes dynamic events, such as collisions or near-collisions. To address this, we introduce a pipeline that enhances MLLM perception by fusing downsampled video frames with synchronized high-frequency telematics data (IMU and GPS) and semantic insights from specialized computer vision models. Our pipeline generates high-quality pseudo-labels, including descriptive captions and question-answer pairs, specifically designed to train MLLMs to identify and describe Safety-Critical Events (SCEs) in real-world driving footage. We show the effectiveness of our approach fine-tuning the open-source QwenVL-2.5 model via DoRA adapters: our experiments demonstrate significant improvements in identifying and explaining safety-critical events, with fewer than 50M trainable parameters and limited computational budget.