DriveMind: A Dual-VLM based Reinforcement Learning Framework for Autonomous Driving

📄 arXiv: 2506.00819v1 📥 PDF

作者: Dawood Wasif, Terrence J Moore, Chandan K Reddy, Jin-Hee Cho

分类: cs.RO, cs.AI

发布日期: 2025-06-01


💡 一句话要点

DriveMind:基于双视觉-语言模型的自动驾驶强化学习框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 强化学习 视觉-语言模型 语义奖励 动态提示

📋 核心要点

  1. 端到端自动驾驶系统缺乏可解释性和安全性,难以适应动态驾驶环境。
  2. DriveMind通过集成对比VLM编码器、动态提示生成和分层安全模块,构建统一的语义奖励框架。
  3. DriveMind在CARLA Town 2中显著提升了驾驶性能,并具有零样本泛化到真实数据的能力。

📝 摘要(中文)

端到端自动驾驶系统直接将传感器数据映射到控制命令,但缺乏透明性、可解释性和形式化安全保证。最近基于视觉-语言引导的强化学习(RL)方法引入了语义反馈,但它们通常依赖于静态提示和固定目标,限制了对动态驾驶场景的适应性。我们提出了DriveMind,一个统一的语义奖励框架,它集成了:(i)用于逐步语义锚定的对比视觉-语言模型(VLM)编码器;(ii)一个新颖性触发的VLM编码器-解码器,通过思维链(CoT)蒸馏进行微调,用于语义漂移时的动态提示生成;(iii)一个分层安全模块,用于执行运动学约束(例如,速度、车道居中、稳定性);(iv)一个紧凑的预测世界模型,用于奖励与预期理想状态的一致性。DriveMind在CARLA Town 2中实现了19.4 +/- 2.3 km/h的平均速度,0.98 +/- 0.03的路线完成率,以及接近零的碰撞,在成功率方面优于基线4%以上。其语义奖励能够零样本泛化到真实行车记录仪数据,且分布偏移最小,展示了强大的跨域对齐和实际部署的潜力。

🔬 方法详解

问题定义:现有端到端自动驾驶系统缺乏可解释性和安全性,难以适应复杂多变的驾驶环境。基于视觉-语言的强化学习方法虽然引入了语义反馈,但通常依赖静态提示,无法根据动态场景进行调整,限制了其泛化能力。

核心思路:DriveMind的核心思路是利用视觉-语言模型(VLM)理解驾驶场景的语义信息,并将其融入强化学习的奖励函数中,从而引导智能体学习更安全、更高效的驾驶策略。通过动态生成提示,使智能体能够适应不同的驾驶场景。

技术框架:DriveMind框架包含四个主要模块:(1)对比VLM编码器:用于提取驾驶场景的语义特征,实现逐步语义锚定。(2)新颖性触发的VLM编码器-解码器:通过思维链蒸馏进行微调,用于在发生语义漂移时动态生成提示。(3)分层安全模块:执行运动学约束,如速度限制、车道保持和稳定性控制,确保驾驶安全。(4)预测世界模型:预测理想状态,并根据智能体的行为与理想状态的对齐程度进行奖励。

关键创新:DriveMind的关键创新在于其动态提示生成机制,能够根据驾驶场景的变化自适应地调整奖励函数,从而提高智能体的泛化能力。此外,分层安全模块的引入,保证了驾驶过程中的安全性。

关键设计:对比VLM编码器使用对比学习损失进行训练,以提高语义特征的区分度。新颖性触发机制基于当前状态与历史状态的差异来判断是否需要生成新的提示。思维链蒸馏用于将大型语言模型的推理能力迁移到VLM编码器-解码器中。分层安全模块通过约束智能体的动作空间来保证安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DriveMind在CARLA Town 2中取得了显著的性能提升,平均速度达到19.4 +/- 2.3 km/h,路线完成率达到0.98 +/- 0.03,碰撞次数接近于零,成功率比基线提高了4%以上。更重要的是,DriveMind的语义奖励能够零样本泛化到真实行车记录仪数据,展示了其强大的跨域对齐能力。

🎯 应用场景

DriveMind具有广泛的应用前景,可用于提升自动驾驶系统的安全性、可靠性和泛化能力。该框架可应用于各种自动驾驶场景,包括城市道路、高速公路和越野环境。此外,DriveMind的语义奖励机制可以推广到其他机器人任务中,例如导航、操作和人机交互。

📄 摘要(原文)

End-to-end autonomous driving systems map sensor data directly to control commands, but remain opaque, lack interpretability, and offer no formal safety guarantees. While recent vision-language-guided reinforcement learning (RL) methods introduce semantic feedback, they often rely on static prompts and fixed objectives, limiting adaptability to dynamic driving scenes. We present DriveMind, a unified semantic reward framework that integrates: (i) a contrastive Vision-Language Model (VLM) encoder for stepwise semantic anchoring; (ii) a novelty-triggered VLM encoder-decoder, fine-tuned via chain-of-thought (CoT) distillation, for dynamic prompt generation upon semantic drift; (iii) a hierarchical safety module enforcing kinematic constraints (e.g., speed, lane centering, stability); and (iv) a compact predictive world model to reward alignment with anticipated ideal states. DriveMind achieves 19.4 +/- 2.3 km/h average speed, 0.98 +/- 0.03 route completion, and near-zero collisions in CARLA Town 2, outperforming baselines by over 4% in success rate. Its semantic reward generalizes zero-shot to real dash-cam data with minimal distributional shift, demonstrating robust cross-domain alignment and potential for real-world deployment.