The System Description of CPS Team for Track on Driving with Language of CVPR 2024 Autonomous Grand Challenge
作者: Jinghan Peng, Jingwen Wang, Xing Yu, Dehui Du
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-09-14
💡 一句话要点
CPS团队提出基于LLaVA微调与深度信息融合的视觉语言模型,用于CVPR 2024自动驾驶挑战赛
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 视觉语言模型 LLaVA 深度信息融合 思维链推理 微调 DriveLM-nuScenes
📋 核心要点
- 现有视觉语言模型在自动驾驶场景中,对复杂指令的理解和执行能力仍有提升空间,尤其是在结合环境深度信息方面。
- 该方法通过微调LLaVA模型,并融合深度信息,增强模型对驾驶场景的理解,并采用思维链推理提高决策准确性。
- 实验结果表明,该方法在DriveLM-nuScenes数据集上取得了显著效果,验证集排行榜上排名第一,得分为0.7799。
📝 摘要(中文)
本报告概述了我们为CVPR 2024自动驾驶挑战赛中“基于语言的驾驶”赛道所采用的视觉语言模型系统方法。我们完全使用了DriveLM-nuScenes数据集来训练我们的模型。我们的系统构建于LLaVA模型之上,并通过LoRA和DoRA方法进行微调来增强性能。此外,我们还集成了来自开源深度估计模型的深度信息,以丰富训练和推理过程。对于推理,特别是对于多项选择和是/否问题,我们采用了思维链(Chain-of-Thought)推理方法来提高结果的准确性。这种全面的方法使我们在验证集排行榜上获得了0.7799的最高分,排名第一。
🔬 方法详解
问题定义:论文旨在解决自动驾驶场景下,视觉语言模型如何更好地理解和执行基于自然语言的驾驶指令的问题。现有方法在处理复杂指令,特别是需要结合场景深度信息进行推理时,性能存在瓶颈。痛点在于模型对场景的理解不够深入,推理能力不足,导致决策错误。
核心思路:论文的核心思路是利用LLaVA模型作为基础,通过微调和融合深度信息来增强模型对驾驶场景的理解能力。同时,采用思维链推理方法来提高模型在复杂问题上的推理准确性。这样设计的目的是为了让模型能够更全面地理解场景,并进行更可靠的决策。
技术框架:整体框架包括数据准备、模型训练和推理三个阶段。数据准备阶段使用DriveLM-nuScenes数据集,并结合开源深度估计模型生成深度信息。模型训练阶段基于LLaVA模型,使用LoRA和DoRA方法进行微调。推理阶段采用思维链推理方法,对多项选择和是/否问题进行逐步推理。
关键创新:最重要的技术创新点在于深度信息的融合和思维链推理的应用。深度信息的融合使得模型能够更全面地理解场景,而思维链推理则提高了模型在复杂问题上的推理准确性。与现有方法相比,该方法能够更好地利用场景信息,并进行更可靠的决策。
关键设计:论文的关键设计包括:1) 使用LoRA和DoRA方法进行微调,以减少计算资源消耗;2) 集成开源深度估计模型,获取场景深度信息;3) 采用思维链推理方法,对多项选择和是/否问题进行逐步推理。具体的参数设置和网络结构等技术细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
该方法在CVPR 2024自动驾驶挑战赛的“基于语言的驾驶”赛道中,在DriveLM-nuScenes验证集上取得了0.7799的最高分,排名第一。这一结果表明,该方法在理解和执行基于自然语言的驾驶指令方面具有显著优势。
🎯 应用场景
该研究成果可应用于自动驾驶汽车的自然语言交互系统,提升车辆对驾驶员指令的理解和执行能力。此外,该方法也可推广到其他需要结合视觉信息和语言指令的机器人应用场景,例如智能家居、辅助驾驶等,具有广泛的应用前景和实际价值。
📄 摘要(原文)
This report outlines our approach using vision language model systems for the Driving with Language track of the CVPR 2024 Autonomous Grand Challenge. We have exclusively utilized the DriveLM-nuScenes dataset for training our models. Our systems are built on the LLaVA models, which we enhanced through fine-tuning with the LoRA and DoRA methods. Additionally, we have integrated depth information from open-source depth estimation models to enrich the training and inference processes. For inference, particularly with multiple-choice and yes/no questions, we adopted a Chain-of-Thought reasoning approach to improve the accuracy of the results. This comprehensive methodology enabled us to achieve a top score of 0.7799 on the validation set leaderboard, ranking 1st on the leaderboard.