ExploreVLA: Dense World Modeling and Exploration for End-to-End Autonomous Driving
作者: Zihao Sheng, Xin Ye, Jingru Luo, Sikai Chen, Liu Ren
分类: cs.CV
发布日期: 2026-04-06
💡 一句话要点
ExploreVLA:面向端到端自动驾驶的稠密世界建模与探索
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 端到端自动驾驶 世界模型 强化学习 策略探索 视觉语言动作 内在奖励 不确定性估计
📋 核心要点
- 现有基于模仿学习的VLA自动驾驶模型泛化性差,难以应对分布外场景,缺乏探索能力。
- 提出ExploreVLA框架,利用世界模型进行稠密监督和内在奖励生成,鼓励策略探索。
- 在NAVSIM和nuScenes数据集上验证了方法的有效性,显著提升了自动驾驶性能。
📝 摘要(中文)
基于视觉-语言-动作(VLA)架构的端到端自动驾驶模型通过模仿专家演示学习驾驶策略,展现出良好的潜力。然而,模仿学习本质上限制了模型复制观察到的行为,而无法探索多样化的驾驶策略,导致其在新颖或分布外的场景中表现脆弱。强化学习(RL)通过支持策略探索来弥补这一缺陷。然而,通常在离线数据集上训练的VLA模型缺乏直接可观察的状态转移,因此需要学习世界模型来预测动作的后果。本文提出了一个统一的理解和生成框架,该框架利用世界建模来同时实现有意义的探索并提供稠密监督。具体而言,我们通过未来RGB和深度图像生成来增强轨迹预测,作为稠密世界建模目标,要求模型学习细粒度的视觉和几何表示,从而显著丰富规划骨干网络。除了作为监督信号外,世界模型还充当策略探索的内在奖励来源:其图像预测不确定性自然地衡量了轨迹相对于训练分布的新颖性,其中高不确定性表示分布外场景,如果安全,则代表有价值的学习机会。我们将这种探索信号纳入安全门控奖励中,并通过群体相对策略优化(GRPO)来优化策略。在NAVSIM和nuScenes基准测试上的实验证明了我们方法的有效性,在NAVSIM上实现了93.7的state-of-the-art PDMS分数和88.8的EPDMS。
🔬 方法详解
问题定义:现有端到端自动驾驶模型依赖模仿学习,只能复现专家行为,无法探索新的驾驶策略,导致在未见过的场景中表现不佳。缺乏有效的探索机制和对环境的理解是主要痛点。
核心思路:利用世界模型学习环境的动态变化,通过预测未来图像(RGB和深度图)来提供稠密监督信号,增强模型对环境的理解。同时,利用世界模型预测的不确定性作为内在奖励,鼓励模型探索未知的、潜在有价值的驾驶策略。
技术框架:ExploreVLA框架包含以下几个主要模块:1) 轨迹预测模块:预测车辆未来的轨迹。2) 世界模型模块:基于当前状态和动作,预测未来的RGB和深度图像。3) 奖励函数设计:结合外部奖励(例如,是否到达目的地)和内在奖励(世界模型预测的不确定性),并使用安全门控机制防止不安全的探索。4) 策略优化模块:使用Group Relative Policy Optimization (GRPO) 算法优化驾驶策略。
关键创新:最重要的创新点在于将世界模型的不确定性作为内在奖励,引导模型进行有效的探索。这种方法能够让模型在训练过程中发现新的、有价值的驾驶策略,从而提高模型的泛化能力和鲁棒性。与传统的强化学习方法相比,ExploreVLA不需要手动设计复杂的奖励函数,而是通过学习环境的动态变化来自动生成奖励信号。
关键设计:关键设计包括:1) 使用RGB和深度图像作为世界模型的输出,提供更丰富的环境信息。2) 使用预测图像的不确定性(例如,方差)作为内在奖励的度量。3) 使用安全门控机制,只有在预测轨迹安全的情况下才允许进行探索。4) 使用GRPO算法进行策略优化,提高训练的稳定性和效率。
🖼️ 关键图片
📊 实验亮点
ExploreVLA在NAVSIM基准测试上取得了显著的性能提升,PDMS指标达到93.7,EPDMS指标达到88.8,均达到了state-of-the-art水平。这些结果表明,通过稠密世界建模和探索,可以有效提高端到端自动驾驶模型的性能和泛化能力。代码和演示将公开。
🎯 应用场景
该研究成果可应用于各种自动驾驶场景,尤其是在城市复杂交通环境和未知环境中。通过提升自动驾驶系统的探索能力和泛化性能,可以显著提高驾驶安全性、效率和用户体验,加速自动驾驶技术的商业化落地。此外,该方法也可推广到其他机器人领域,例如无人机导航和机器人操作。
📄 摘要(原文)
End-to-end autonomous driving models based on Vision-Language-Action (VLA) architectures have shown promising results by learning driving policies through behavior cloning on expert demonstrations. However, imitation learning inherently limits the model to replicating observed behaviors without exploring diverse driving strategies, leaving it brittle in novel or out-of-distribution scenarios. Reinforcement learning (RL) offers a natural remedy by enabling policy exploration beyond the expert distribution. Yet VLA models, typically trained on offline datasets, lack directly observable state transitions, necessitating a learned world model to anticipate action consequences. In this work, we propose a unified understanding-and-generation framework that leverages world modeling to simultaneously enable meaningful exploration and provide dense supervision. Specifically, we augment trajectory prediction with future RGB and depth image generation as dense world modeling objectives, requiring the model to learn fine-grained visual and geometric representations that substantially enrich the planning backbone. Beyond serving as a supervisory signal, the world model further acts as a source of intrinsic reward for policy exploration: its image prediction uncertainty naturally measures a trajectory's novelty relative to the training distribution, where high uncertainty indicates out-of-distribution scenarios that, if safe, represent valuable learning opportunities. We incorporate this exploration signal into a safety-gated reward and optimize the policy via Group Relative Policy Optimization (GRPO). Experiments on the NAVSIM and nuScenes benchmarks demonstrate the effectiveness of our approach, achieving a state-of-the-art PDMS score of 93.7 and an EPDMS of 88.8 on NAVSIM. The code and demo will be publicly available atthis https URL.