Enhancing Multimodal Large Language Models for Safety-Critical Driving Video Analysis

作者: Tomaso Trinci, Henrique Piñeiro Monteagudo, Leonardo Taccari

分类: cs.CV, cs.LG

发布日期: 2026-05-21

备注: Accepted at the 2026 IEEE International Conference on Intelligent Transportation Systems (ITSC 2026)

💡 一句话要点

提出融合多模态信息的MLLM增强方案，用于安全驾驶视频分析

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 安全驾驶 视频分析 伪标签生成 遥测数据

📋 核心要点

现有多模态大语言模型在安全驾驶场景中，难以准确感知和推理罕见的高风险动态事件，如碰撞等。
本文提出一种流水线，融合视频帧、遥测数据和语义信息，生成高质量伪标签，用于训练MLLM识别安全关键事件。
实验表明，通过微调QwenVL-2.5模型，该方法在识别和解释安全关键事件方面取得了显著改进，且计算成本较低。

📝 摘要（中文）

本文提出了一种增强多模态大语言模型(MLLM)的流水线，用于安全关键驾驶场景的视频分析。现有MLLM在通用视觉理解方面表现出色，但在识别和推理碰撞或近碰撞等高风险动态事件方面存在局限性。该流水线融合了降采样视频帧、同步的高频遥测数据（IMU和GPS）以及来自专用计算机视觉模型的语义信息，从而增强MLLM的感知能力。该流水线生成高质量的伪标签，包括描述性字幕和问答对，专门用于训练MLLM识别和描述真实驾驶视频中的安全关键事件(SCE)。实验表明，通过DoRA适配器微调开源QwenVL-2.5模型，该方法在识别和解释安全关键事件方面取得了显著改进，且仅需不到50M的可训练参数和有限的计算资源。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLM）在安全关键驾驶视频分析中，对罕见高风险动态事件（如碰撞或近碰撞）感知和推理能力不足的问题。现有方法难以有效利用多模态信息，导致对安全关键事件的识别精度较低。

核心思路：论文的核心思路是通过融合多种模态的信息，包括视频帧、高频遥测数据（IMU和GPS）以及来自专用计算机视觉模型的语义信息，来增强MLLM对驾驶场景的感知能力。通过生成高质量的伪标签，包括描述性字幕和问答对，来训练MLLM识别和描述安全关键事件。

技术框架：整体框架包含以下几个主要阶段：1) 数据采集：收集驾驶视频、IMU和GPS数据；2) 语义信息提取：利用计算机视觉模型提取视频帧中的语义信息；3) 多模态数据融合：将视频帧、遥测数据和语义信息进行融合；4) 伪标签生成：基于融合后的数据生成描述性字幕和问答对；5) 模型微调：使用生成的伪标签微调MLLM模型。

关键创新：论文的关键创新在于提出了一种有效融合多模态信息，并生成高质量伪标签的流水线，用于训练MLLM识别安全关键事件。该方法能够充分利用不同模态的信息，提高MLLM对驾驶场景的理解能力，从而更准确地识别和解释安全关键事件。

关键设计：论文使用降采样视频帧以降低计算成本。采用DoRA适配器微调开源QwenVL-2.5模型，仅需不到50M的可训练参数。伪标签生成过程的设计细节未知，但强调了生成描述性字幕和问答对的重要性，以提高MLLM的理解能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过该方法微调后的QwenVL-2.5模型在识别和解释安全关键事件方面取得了显著改进。具体的性能数据和对比基线未在摘要中明确给出，但强调了在有限计算资源下，仅使用不到50M的可训练参数就实现了性能提升。

🎯 应用场景

该研究成果可应用于高级驾驶辅助系统(ADAS)和自动驾驶系统，提高车辆对潜在危险场景的感知和预警能力，从而降低交通事故的发生率。此外，该方法还可用于驾驶员行为分析、交通安全监控等领域，具有重要的实际应用价值和广阔的发展前景。

📄 摘要（原文）

Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in general visual understanding. However, their application to safety-critical driving scenarios remains limited by an inability to accurately perceive and reason about rare high-stakes dynamic events, such as collisions or near-collisions. To address this, we introduce a pipeline that enhances MLLM perception by fusing downsampled video frames with synchronized high-frequency telematics data (IMU and GPS) and semantic insights from specialized computer vision models. Our pipeline generates high-quality pseudo-labels, including descriptive captions and question-answer pairs, specifically designed to train MLLMs to identify and describe Safety-Critical Events (SCEs) in real-world driving footage. We show the effectiveness of our approach fine-tuning the open-source QwenVL-2.5 model via DoRA adapters: our experiments demonstrate significant improvements in identifying and explaining safety-critical events, with fewer than 50M trainable parameters and limited computational budget.

Enhancing Multimodal Large Language Models for Safety-Critical Driving Video Analysis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理