VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

📄 arXiv: 2603.22003v1 📥 PDF

作者: Zixuan Wang, Yuxin Chen, Yuqi Liu, Jinhui Ye, Pengguang Chen, Changsheng Lu, Shu Liu, Jiaya Jia

分类: cs.RO

发布日期: 2026-03-23

备注: Project page: https://visualprompt-vla.github.io/


💡 一句话要点

提出VP-VLA以解决视觉-语言-动作模型的空间精度问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 机器人控制 空间精度 结构化提示 任务分解 鲁棒性 智能系统

📋 核心要点

  1. 现有的视觉-语言-动作模型在处理复杂指令时,存在空间精度差和鲁棒性不足的问题。
  2. VP-VLA通过结构化视觉提示接口,将高层推理与低层执行解耦,从而提高了指令处理的精度和可靠性。
  3. 在Robocasa-GR1-Tabletop基准和SimplerEnv仿真中,VP-VLA的成功率分别提高了5%和8.3%,显著优于现有方法。

📝 摘要(中文)

视觉-语言-动作(VLA)模型通常将视觉观察与语言指令直接映射到机器人控制信号。这种“黑箱”映射在处理指令解释、空间定位和低级控制时,往往导致空间精度差和在分布外场景中的鲁棒性有限。为了解决这些问题,本文提出了VP-VLA,一个通过结构化视觉提示接口解耦高层推理与低层执行的双系统框架。具体而言,“系统2规划器”将复杂指令分解为子任务,并识别相关目标对象和目标位置。这些空间锚点直接叠加到视觉观察上,作为结构化视觉提示。通过这些提示引导,并在训练过程中增强了一种新的辅助视觉定位目标,“系统1控制器”能够可靠地产生精确的低级执行动作。在Robocasa-GR1-Tabletop基准和SimplerEnv仿真中的实验表明,VP-VLA的成功率提高了5%和8.3%,超越了包括QwenOFT和GR00T-N1.6在内的竞争基线。

🔬 方法详解

问题定义:本文旨在解决现有视觉-语言-动作模型在处理复杂指令时的空间精度和鲁棒性不足的问题。现有方法通常将指令解释、空间定位和控制信号映射结合在一起,导致性能下降。

核心思路:VP-VLA的核心思路是通过结构化视觉提示接口将高层推理与低层执行解耦。具体而言,系统2规划器负责将复杂指令分解为可管理的子任务,并识别相关目标对象和位置。

技术框架:VP-VLA框架分为两个主要模块:系统2规划器和系统1控制器。系统2规划器将指令分解并生成空间锚点,系统1控制器则基于这些提示生成低级执行动作。

关键创新:VP-VLA的创新在于引入了结构化视觉提示,允许系统在视觉观察上直接叠加目标信息,从而提高了空间精度和执行可靠性。这一设计与传统的黑箱模型形成鲜明对比。

关键设计:在训练过程中,VP-VLA引入了一种新的辅助视觉定位目标,以增强系统1控制器的性能。此外,系统2规划器的设计确保了任务分解的有效性和空间锚点的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VP-VLA在Robocasa-GR1-Tabletop基准和SimplerEnv仿真中的实验结果显示,成功率分别提高了5%和8.3%。这一提升显著超越了现有的竞争基线,如QwenOFT和GR00T-N1.6,证明了该方法的有效性和优势。

🎯 应用场景

VP-VLA的研究成果在机器人控制、自动化任务执行和人机交互等领域具有广泛的应用潜力。通过提高视觉-语言-动作模型的空间精度和鲁棒性,该方法能够更好地支持复杂环境中的机器人操作,提升智能系统的实用性和可靠性。

📄 摘要(原文)

Vision-Language-Action (VLA) models typically map visual observations and linguistic instructions directly to robotic control signals. This "black-box" mapping forces a single forward pass to simultaneously handle instruction interpretation, spatial grounding, and low-level control, often leading to poor spatial precision and limited robustness in out-of-distribution scenarios. To address these limitations, we propose VP-VLA, a dual-system framework that decouples high-level reasoning and low-level execution via a structured visual prompting interface. Specifically, a "System 2 Planner" decomposes complex instructions into sub-tasks and identifies relevant target objects and goal locations. These spatial anchors are then overlaid directly onto visual observations as structured visual prompts, such as crosshairs and bounding boxes. Guided by these prompts and enhanced by a novel auxiliary visual grounding objective during training, a "System 1 Controller" reliably generates precise low-level execution motions. Experiments on the Robocasa-GR1-Tabletop benchmark and SimplerEnv simulation demonstrate that VP-VLA improves success rates by 5% and 8.3%, surpassing competitive baselines including QwenOFT and GR00T-N1.6.