Judge, Then Drive: A Critic-Centric Vision Language Action Framework for Autonomous Driving

作者: Lijin Yang, Jianing Huang, Zhongzhan Huang, Shu Liu, Hao Yang

分类: cs.CV

发布日期: 2026-04-30

备注: preprint

💡 一句话要点

提出CriticVLA框架，利用视觉语言行为模型提升自动驾驶决策质量

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉语言行为模型 多模态学习 决策优化 闭环控制

📋 核心要点

现有基于VLA的自动驾驶方法未能充分利用VLA模型的评论能力，限制了其在复杂场景下的性能。
CriticVLA框架通过两阶段流程，先生成粗略轨迹，再利用VLA评论家进行多模态评估和优化，提升驾驶决策质量。
实验表明，CriticVLA在Bench2Drive基准测试中显著优于现有方法，尤其在复杂场景中提升显著。

📝 摘要（中文）

本文提出了一种名为CriticVLA的双阶段框架，旨在提升视觉语言行为（VLA）模型在自动驾驶中的性能。与以往方法不同，CriticVLA不仅利用VLA模型进行行为决策，更将其扩展到决策评估环节。该框架首先生成一个初步的轨迹，然后通过基于VLA的评论家进行多模态评估和单步优化，从而产生更高质量的驾驶行为。为了支持这一过程，作者构建了一个包含1290万条带注释轨迹的大规模合成数据集，以增强评论家的推理和优化能力。在Bench2Drive基准上的大量闭环实验表明，CriticVLA显著超越了最先进的基线方法，总成功率达到73.33%，并在具有挑战性的场景中实现了约30%的性能提升。

🔬 方法详解

问题定义：现有基于视觉语言行为（VLA）模型的自动驾驶方法，虽然能够直接将多模态输入映射到控制信号，但未能充分利用VLA模型在决策评估方面的能力。这导致在复杂闭环场景中，驾驶决策的质量受到限制，难以达到理想的性能。现有方法主要关注如何让VLA模型“行动”，而忽略了如何让其“判断”。

核心思路：CriticVLA的核心思路是将VLA模型的作用从单纯的“执行者”扩展到“评论者”。通过引入一个VLA驱动的“评论家”，对初步生成的驾驶轨迹进行评估和优化，从而提高最终驾驶决策的质量。这种设计借鉴了人类驾驶员在驾驶过程中不断评估和调整自身行为的习惯。

技术框架：CriticVLA框架包含两个主要阶段：轨迹生成阶段和轨迹优化阶段。在轨迹生成阶段，VLA模型根据感知输入生成一个初步的驾驶轨迹。在轨迹优化阶段，VLA评论家对该轨迹进行多模态评估，并根据评估结果进行单步优化。整个过程可以看作是一个“行动-评论-优化”的循环，最终输出高质量的驾驶行为。为了训练VLA评论家，作者构建了一个大规模合成数据集，包含丰富的驾驶场景和轨迹注释。

关键创新：CriticVLA的关键创新在于将VLA模型应用于驾驶决策的评估和优化，而不仅仅是行为的生成。通过引入VLA评论家，CriticVLA能够更好地理解驾驶场景，并对驾驶行为进行更准确的评估，从而实现更优的驾驶决策。这种“评论家”机制是与现有VLA驱动的自动驾驶方法最本质的区别。

关键设计：CriticVLA的关键设计包括：1) 大规模合成数据集的构建，用于训练VLA评论家；2) VLA评论家的网络结构设计，使其能够有效地进行多模态评估；3) 单步优化策略的设计，使其能够根据VLA评论家的评估结果，对驾驶轨迹进行有效的优化。具体而言，损失函数的设计需要平衡驾驶安全性、舒适性和效率。网络结构可能包含视觉编码器、语言编码器以及融合模块，用于处理多模态输入。

🖼️ 关键图片

📊 实验亮点

CriticVLA在Bench2Drive基准测试中取得了显著的性能提升，总成功率达到73.33%，超越了现有的最先进方法。尤其是在具有挑战性的场景中，CriticVLA实现了约30%的性能提升，表明其在复杂环境下的决策能力更强。这些实验结果充分证明了CriticVLA框架的有效性和优越性。

🎯 应用场景

CriticVLA框架具有广泛的应用前景，可应用于各种自动驾驶车辆，包括乘用车、卡车和无人配送车等。该框架能够提升自动驾驶系统在复杂交通环境下的安全性、可靠性和效率。此外，CriticVLA的设计思想也可以推广到其他机器人领域，例如无人机、服务机器人等，提升其在复杂环境中的决策能力。

📄 摘要（原文）

Recent advances in vision language action (VLA) models have shown remarkable potential for autonomous driving by directly mapping multimodal inputs to control signals. However, previous VLA-based methods have not explicitly exploited the critic capability of VLAs to refine driving decisions, even though such capability has been well demonstrated in other LLM-based domains, thereby limiting their performance in complex closed-loop scenarios. In this work, we present a theoretically inspired two-stage framework, CriticVLA, which extends the role of VLAs from acting to judging. CriticVLA first generates a rough trajectory and then refines it through multimodal evaluation and single-step optimization guided by a VLA-based critic, yielding higher-quality driving behaviors. To support this process, we construct a large-scale synthetic dataset of 12.9 million annotated trajectories covering diverse driving scenarios, which enhances the critic's reasoning and refinement abilities. Extensive closed-loop experiments on the Bench2Drive benchmark show that CriticVLA significantly surpasses state-of-the-art baselines, achieving a 73.33% total success rate and delivering about 30% improvement in challenging scenarios.

Judge, Then Drive: A Critic-Centric Vision Language Action Framework for Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理