SteerVLA: Steering Vision-Language-Action Models in Long-Tail Driving Scenarios

📄 arXiv: 2602.08440v1 📥 PDF

作者: Tian Gao, Celine Tan, Catherine Glossop, Timothy Gao, Jiankai Sun, Kyle Stachowicz, Shirley Wu, Oier Mees, Dorsa Sadigh, Sergey Levine, Chelsea Finn

分类: cs.RO

发布日期: 2026-02-09

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

SteerVLA:利用视觉-语言模型在长尾驾驶场景中实现可控的自动驾驶

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉-语言模型 长尾场景 语言引导 机器人控制

📋 核心要点

  1. 现有自动驾驶方法难以将VLM的语义推理能力与车辆的低层次控制有效结合,尤其是在长尾场景下。
  2. SteerVLA利用VLM生成细粒度的语言指令,引导VLA驾驶策略,实现高层推理与底层控制的有效衔接。
  3. 实验表明,SteerVLA在闭环基准测试中显著优于现有方法,尤其是在长尾场景下,提升效果明显。

📝 摘要(中文)

自动驾驶领域的一个根本挑战是如何将高层次、语义推理的长尾事件与低层次、反应式的控制相结合,以实现稳健的驾驶。虽然在网络规模数据上训练的大型视觉-语言模型(VLM)提供了强大的常识推理能力,但它们缺乏安全车辆控制所需的实践经验。我们认为,有效的自动驾驶代理应该利用VLM的世界知识来引导可操纵的驾驶策略,从而在驾驶场景中实现稳健的控制。为此,我们提出了SteerVLA,它利用VLM的推理能力来生成细粒度的语言指令,从而引导视觉-语言-动作(VLA)驾驶策略。我们方法的关键在于高层VLM和低层VLA之间这种丰富的语言接口,它允许高层策略更有效地将其推理建立在低层策略的控制输出之上。为了提供与车辆控制对齐的细粒度语言监督,我们利用VLM来增强现有的驾驶数据,并添加详细的语言注释,我们发现这对于有效的推理和可操纵性至关重要。我们在一个具有挑战性的闭环基准上评估了SteerVLA,结果表明,它在总体驾驶评分方面优于最先进的方法4.77分,在长尾子集上优于8.04分。项目网站:https://steervla.github.io/。

🔬 方法详解

问题定义:论文旨在解决自动驾驶中,如何有效利用大型视觉-语言模型(VLM)的常识推理能力,来提升车辆在复杂、长尾场景下的控制性能的问题。现有方法要么缺乏对长尾事件的有效处理,要么无法将VLM的推理能力与车辆的底层控制进行有效结合,导致驾驶策略不够稳健。

核心思路:论文的核心思路是利用VLM生成细粒度的语言指令,作为高层推理与底层控制之间的桥梁,从而引导视觉-语言-动作(VLA)驾驶策略。通过这种方式,VLM的常识知识可以更好地指导车辆的控制行为,尤其是在处理长尾事件时。

技术框架:SteerVLA包含两个主要模块:高层VLM和低层VLA。高层VLM负责接收场景信息,并生成细粒度的语言指令,这些指令描述了车辆应该采取的具体行动。低层VLA则根据场景信息和高层VLM生成的语言指令,输出车辆的控制指令(例如,转向、加速、刹车)。关键在于VLM和VLA之间的语言接口,它允许VLM将其推理结果有效地传递给VLA,并指导其控制行为。

关键创新:该方法最重要的创新点在于引入了语言作为高层推理和底层控制之间的桥梁。通过利用VLM生成细粒度的语言指令,SteerVLA能够更有效地将VLM的常识知识融入到车辆的控制策略中。此外,论文还利用VLM对现有驾驶数据进行增强,添加了详细的语言注释,这对于训练有效的VLM和VLA至关重要。

关键设计:为了训练有效的VLM和VLA,论文采用了以下关键设计:1) 利用VLM对现有驾驶数据进行增强,添加详细的语言注释,从而提供与车辆控制对齐的细粒度语言监督。2) 设计了一种损失函数,鼓励VLA根据VLM生成的语言指令采取相应的控制行为。3) 采用了预训练的VLM和VLA,并对其进行微调,以适应自动驾驶任务。

📊 实验亮点

SteerVLA在闭环驾驶基准测试中取得了显著的性能提升。在总体驾驶评分方面,SteerVLA优于最先进的方法4.77分。更重要的是,在长尾子集上,SteerVLA的性能提升高达8.04分,这表明该方法在处理复杂、罕见场景方面具有显著优势。这些实验结果充分证明了SteerVLA的有效性和优越性。

🎯 应用场景

SteerVLA具有广泛的应用前景,可用于提升自动驾驶系统在复杂、长尾场景下的性能和安全性。该方法还可以应用于其他需要高层推理和底层控制相结合的机器人任务,例如家庭服务机器人、物流机器人等。未来,SteerVLA有望成为实现更安全、更智能的自动驾驶系统的关键技术。

📄 摘要(原文)

A fundamental challenge in autonomous driving is the integration of high-level, semantic reasoning for long-tail events with low-level, reactive control for robust driving. While large vision-language models (VLMs) trained on web-scale data offer powerful common-sense reasoning, they lack the grounded experience necessary for safe vehicle control. We posit that an effective autonomous agent should leverage the world knowledge of VLMs to guide a steerable driving policy toward robust control in driving scenarios. To this end, we propose SteerVLA, which leverages the reasoning capabilities of VLMs to produce fine-grained language instructions that steer a vision-language-action (VLA) driving policy. Key to our method is this rich language interface between the high-level VLM and low-level VLA, which allows the high-level policy to more effectively ground its reasoning in the control outputs of the low-level policy. To provide fine-grained language supervision aligned with vehicle control, we leverage a VLM to augment existing driving data with detailed language annotations, which we find to be essential for effective reasoning and steerability. We evaluate SteerVLA on a challenging closed-loop benchmark, where it outperforms state-of-the-art methods by 4.77 points in overall driving score and by 8.04 points on a long-tail subset. The project website is available at: https://steervla.github.io/.