DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding

作者: Ayesha Ishaq, Jean Lahoud, Ketan More, Omkar Thawakar, Ritesh Thawkar, Dinura Dissanayake, Noor Ahsan, Yuhao Li, Fahad Shahbaz Khan, Hisham Cholakkal, Ivan Laptev, Rao Muhammad Anwer, Salman Khan

分类: cs.CV, cs.RO

发布日期: 2025-03-13

备注: 8 pages, 4 figures, 3 tables, github: https://github.com/ayesha-ishaq/DriveLMM-o1

🔗 代码/项目: GITHUB

💡 一句话要点

提出DriveLMM-o1数据集与多模态模型，用于自动驾驶场景下的逐步推理理解。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉问答 多模态学习 逐步推理 数据集 大型模型 场景理解

📋 核心要点

现有VQA基准侧重最终答案准确性，忽略了推理过程，缺乏评估自动驾驶场景逐步推理的框架。
提出DriveLMM-o1数据集与基准，包含感知、预测、规划等问题，并引入逐步推理以确保逻辑性。
微调后的多模态模型在复杂驾驶场景中表现出强大的性能，并在DriveLMM-o1上优于现有模型。

📝 摘要（中文）

大型多模态模型(LMMs)在各种视觉问答(VQA)任务中表现出强大的性能，但某些挑战需要复杂的多步骤推理才能获得准确的答案。自动驾驶就是一个特别具有挑战性的任务，它需要在做出决策之前进行彻底的认知处理。在这个领域，对视觉线索进行顺序和解释性的理解对于有效的感知、预测和规划至关重要。然而，常见的VQA基准通常侧重于最终答案的准确性，而忽略了产生准确响应的推理过程。此外，现有方法缺乏一个全面的框架来评估真实驾驶场景中的逐步推理。为了解决这个差距，我们提出了DriveLMM-o1，一个新的数据集和基准，专门用于推进自动驾驶的逐步视觉推理。我们的基准在训练集中有超过18k个VQA示例，在测试集中有超过4k个，涵盖了关于感知、预测和规划的各种问题，每个问题都通过逐步推理来丰富，以确保自动驾驶场景中的逻辑推理。我们进一步引入了一个大型多模态模型，该模型在我们推理数据集上进行了微调，展示了在复杂驾驶场景中的强大性能。此外，我们在我们提出的数据集上对各种开源和闭源方法进行了基准测试，系统地比较了它们在自动驾驶任务中的推理能力。我们的模型在最终答案准确率上实现了+7.49%的提升，在推理分数上比之前的最佳开源模型提高了3.62%。我们的框架、数据集和模型可在https://github.com/ayesha-ishaq/DriveLMM-o1上获得。

🔬 方法详解

问题定义：现有视觉问答（VQA）基准在自动驾驶场景下存在不足，主要体现在两个方面：一是侧重于最终答案的准确性，忽略了推理过程；二是缺乏对真实驾驶场景中逐步推理能力的评估框架。这意味着现有方法难以保证模型在复杂驾驶环境中进行有效的感知、预测和规划。

核心思路：论文的核心思路是构建一个专门针对自动驾驶场景的、包含逐步推理信息的数据集DriveLMM-o1，并在此基础上训练和评估大型多模态模型（LMMs）的推理能力。通过提供详细的推理步骤，引导模型学习如何在自动驾驶环境中进行逻辑推理，从而提高最终答案的准确性和可靠性。

技术框架：整体框架包含数据集构建和模型训练/评估两个主要部分。数据集构建方面，DriveLMM-o1包含超过18k个训练样本和4k个测试样本，涵盖感知、预测和规划等多个方面的问题，每个问题都配有详细的逐步推理过程。模型训练/评估方面，首先选择一个大型多模态模型作为基础模型，然后在DriveLMM-o1数据集上进行微调，最后在测试集上评估模型的推理能力和最终答案准确率。

关键创新：论文的关键创新在于提出了DriveLMM-o1数据集，该数据集专门为自动驾驶场景下的逐步推理而设计，并包含了丰富的推理信息。与现有VQA数据集相比，DriveLMM-o1更加关注推理过程，能够更有效地评估模型在自动驾驶环境中的推理能力。此外，论文还提出了一个基于DriveLMM-o1数据集微调的大型多模态模型，并在自动驾驶任务中取得了显著的性能提升。

关键设计：论文的关键设计包括：1) DriveLMM-o1数据集的构建，需要精心设计问题和对应的推理步骤，以确保数据集的质量和有效性；2) 大型多模态模型的选择和微调，需要根据自动驾驶场景的特点选择合适的模型结构和训练策略，以充分利用数据集中的推理信息；3) 评估指标的设计，需要同时考虑最终答案的准确率和推理过程的合理性，以全面评估模型的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在DriveLMM-o1数据集上微调的模型在最终答案准确率上实现了+7.49%的提升，在推理分数上比之前的最佳开源模型提高了3.62%。这些结果表明，该研究提出的数据集和模型能够有效提高自动驾驶系统在复杂驾驶场景中的推理能力和决策水平。

🎯 应用场景

该研究成果可应用于自动驾驶系统的感知、预测和规划模块，提升系统对复杂驾驶场景的理解和决策能力。通过逐步推理，系统能够更准确地识别交通参与者、预测其行为，并制定合理的行驶策略，从而提高自动驾驶的安全性和可靠性。此外，该数据集也可用于训练和评估其他自动驾驶算法，推动自动驾驶技术的发展。

📄 摘要（原文）

While large multimodal models (LMMs) have demonstrated strong performance across various Visual Question Answering (VQA) tasks, certain challenges require complex multi-step reasoning to reach accurate answers. One particularly challenging task is autonomous driving, which demands thorough cognitive processing before decisions can be made. In this domain, a sequential and interpretive understanding of visual cues is essential for effective perception, prediction, and planning. Nevertheless, common VQA benchmarks often focus on the accuracy of the final answer while overlooking the reasoning process that enables the generation of accurate responses. Moreover, existing methods lack a comprehensive framework for evaluating step-by-step reasoning in realistic driving scenarios. To address this gap, we propose DriveLMM-o1, a new dataset and benchmark specifically designed to advance step-wise visual reasoning for autonomous driving. Our benchmark features over 18k VQA examples in the training set and more than 4k in the test set, covering diverse questions on perception, prediction, and planning, each enriched with step-by-step reasoning to ensure logical inference in autonomous driving scenarios. We further introduce a large multimodal model that is fine-tuned on our reasoning dataset, demonstrating robust performance in complex driving scenarios. In addition, we benchmark various open-source and closed-source methods on our proposed dataset, systematically comparing their reasoning capabilities for autonomous driving tasks. Our model achieves a +7.49% gain in final answer accuracy, along with a 3.62% improvement in reasoning score over the previous best open-source model. Our framework, dataset, and model are available at https://github.com/ayesha-ishaq/DriveLMM-o1.

DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理