MLLM-SUL: Multimodal Large Language Model for Semantic Scene Understanding and Localization in Traffic Scenarios

📄 arXiv: 2412.19406v1 📥 PDF

作者: Jiaqi Fan, Jianhua Wu, Jincheng Gao, Jianhao Yu, Yafei Wang, Hongqing Chu, Bingzhao Gao

分类: cs.CV

发布日期: 2024-12-27

🔗 代码/项目: GITHUB


💡 一句话要点

提出MLLM-SUL框架,利用多模态大语言模型解决交通场景下的语义场景理解与风险定位问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 语义场景理解 风险定位 交通场景 双分支视觉编码器

📋 核心要点

  1. 现有方法在交通场景理解和风险定位方面存在不足,尤其是在利用多模态信息进行联合推理方面。
  2. MLLM-SUL框架通过双分支视觉编码器提取多尺度特征,并结合微调的LLaMA模型进行场景描述和风险定位。
  3. 实验结果表明,MLLM-SUL在场景理解和风险定位任务上均优于现有方法,取得了显著的性能提升。

📝 摘要(中文)

本文提出了一种名为MLLM-SUL的多模态大语言模型框架,用于解决仅依赖前视图像的联合语义场景理解和风险定位任务。该框架设计了一个双分支视觉编码器,从两个分辨率提取特征,丰富的视觉信息有助于语言模型准确描述不同大小的风险对象。然后,对LLaMA模型进行微调,以预测场景描述,包括驾驶场景类型、风险对象的行为以及自车的驾驶意图和建议。最后,训练一个基于Transformer的网络,该网络结合了一个回归token来定位风险对象。在DRAMA-ROLISP数据集和扩展的DRAMA-SRIS数据集上的大量实验表明,该方法是有效的,超过了许多最先进的基于图像和视频的方法。具体而言,该方法在场景理解任务中实现了80.1%的BLEU-1得分和298.5%的CIDEr得分,在定位任务中实现了59.6%的准确率。代码和数据集可在https://github.com/fjq-tongji/MLLM-SUL 获取。

🔬 方法详解

问题定义:论文旨在解决交通场景下的语义场景理解和风险定位问题。现有方法通常依赖于复杂的传感器融合或需要大量的标注数据,并且在处理不同尺度的风险对象时表现不佳。此外,如何有效地利用多模态信息进行联合推理也是一个挑战。

核心思路:论文的核心思路是利用多模态大语言模型(MLLM)的强大能力,将视觉信息转化为自然语言描述,并结合回归token进行风险定位。通过双分支视觉编码器提取多尺度特征,使模型能够更好地理解不同大小的风险对象。

技术框架:MLLM-SUL框架主要包含三个模块:双分支视觉编码器、语言生成模型和风险定位网络。首先,双分支视觉编码器从两个分辨率的图像中提取视觉特征。然后,将视觉特征输入到微调的LLaMA模型中,生成场景描述,包括驾驶场景类型、风险对象的行为以及自车的驾驶意图和建议。最后,将视觉特征和语言描述输入到基于Transformer的风险定位网络中,该网络预测风险对象的位置。

关键创新:该方法的主要创新在于:1) 提出了一种基于MLLM的联合语义场景理解和风险定位框架。2) 设计了一个双分支视觉编码器,能够提取多尺度特征,从而更好地处理不同大小的风险对象。3) 利用LLaMA模型生成场景描述,从而将视觉信息转化为自然语言,便于模型进行推理。

关键设计:双分支视觉编码器采用ResNet作为骨干网络,分别提取高分辨率和低分辨率的特征。LLaMA模型采用LoRA进行微调,以适应交通场景理解任务。风险定位网络采用Transformer结构,并引入回归token来预测风险对象的位置。损失函数包括交叉熵损失和L1损失,分别用于场景理解和风险定位任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MLLM-SUL在DRAMA-ROLISP和DRAMA-SRIS数据集上取得了显著的性能提升。在场景理解任务中,MLLM-SUL实现了80.1%的BLEU-1得分和298.5%的CIDEr得分,超过了现有方法。在风险定位任务中,MLLM-SUL实现了59.6%的准确率,也优于其他基于图像和视频的方法。

🎯 应用场景

该研究成果可应用于高级驾驶辅助系统(ADAS)和自动驾驶系统,提高车辆对交通场景的理解能力和风险感知能力,从而提升驾驶安全性和舒适性。此外,该方法还可以应用于智能交通管理和城市规划等领域,为交通决策提供支持。

📄 摘要(原文)

Multimodal large language models (MLLMs) have shown satisfactory effects in many autonomous driving tasks. In this paper, MLLMs are utilized to solve joint semantic scene understanding and risk localization tasks, while only relying on front-view images. In the proposed MLLM-SUL framework, a dual-branch visual encoder is first designed to extract features from two resolutions, and rich visual information is conducive to the language model describing risk objects of different sizes accurately. Then for the language generation, LLaMA model is fine-tuned to predict scene descriptions, containing the type of driving scenario, actions of risk objects, and driving intentions and suggestions of ego-vehicle. Ultimately, a transformer-based network incorporating a regression token is trained to locate the risk objects. Extensive experiments on the existing DRAMA-ROLISP dataset and the extended DRAMA-SRIS dataset demonstrate that our method is efficient, surpassing many state-of-the-art image-based and video-based methods. Specifically, our method achieves 80.1% BLEU-1 score and 298.5% CIDEr score in the scene understanding task, and 59.6% accuracy in the localization task. Codes and datasets are available at https://github.com/fjq-tongji/MLLM-SUL.