Coarse-to-Control: Action-Token Planning for Vision-Language-Action Models

📄 arXiv: 2606.07107v1 📥 PDF

作者: Jinhao Wu, Shiduo Zhang, Yicheng Liu, Xiaopeng Yu, Sixian Li, Siyin Wang, Hang Zhao, Jing Huo, Yang Gao, Jingjing Gong, Xipeng Qiu, Yu-Gang Jiang

分类: cs.RO

发布日期: 2026-06-05


💡 一句话要点

提出Coarse-to-Control以解决长时间任务中的规划不足问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 动作标记规划 长时间任务 机器人操作 多阶段任务

📋 核心要点

  1. 现有的VLA模型在长时间任务中缺乏有效的中间规划,导致早期错误的累积影响最终结果。
  2. 本文提出的Coarse-to-Control方法通过在动作标记空间中引入规划,首先生成粗略动作标记序列,然后基于此生成可执行的动作标记。
  3. 实验结果显示,Coarse-to-Control在LIBERO等多个环境中相较于直接动作生成方法有显著提升,尤其在长时间多阶段任务中表现最佳。

📝 摘要(中文)

大多数视觉-语言-动作(VLA)模型直接将观察映射到动作,而缺乏明确的中间规划,这限制了它们在长时间任务中的表现。本文提出了Coarse-to-Control,这是一种在动作标记空间中原生引入规划的计划-执行VLA模型。其核心思想是让策略首先预测一系列紧凑的粗略动作标记,以总结预期的未来轨迹,然后基于该计划生成可执行的动作标记。由于规划和执行共享统一的离散动作词汇,计划保持接近控制流形,并提供直接可操作的指导,而不是需要转换为运动指令的抽象提示。实验结果表明,在LIBERO、SimplerEnv-WidowX和实际操作任务中,动作标记规划在直接动作生成上始终表现出一致的改进,尤其在长时间多阶段任务中取得了显著提升。

🔬 方法详解

问题定义:本文旨在解决现有VLA模型在长时间任务中缺乏有效规划的问题。现有方法直接将观察映射为动作,导致早期错误的累积,影响最终表现。

核心思路:Coarse-to-Control的核心思路是通过在动作标记空间中引入规划,首先生成一系列粗略的动作标记,以总结未来的轨迹,然后基于该计划生成可执行的动作标记。这种设计使得规划与执行之间的联系更加紧密。

技术框架:该方法的整体架构包括两个主要阶段:第一阶段是生成粗略动作标记序列,第二阶段是基于该序列生成具体的可执行动作标记。两者共享统一的离散动作词汇,确保了计划的可操作性。

关键创新:最重要的技术创新在于将规划过程引入到动作标记生成中,使得生成的计划更接近控制流形,提供直接可操作的指导,而不是需要转换的抽象提示。这与现有方法的本质区别在于其规划的原生性。

关键设计:在模型设计中,使用了统一的离散动作词汇,确保规划和执行之间的无缝衔接。此外,损失函数的设计也考虑了规划的有效性和执行的准确性,以提高整体性能。具体的网络结构和参数设置在实验部分进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Coarse-to-Control在LIBERO、SimplerEnv-WidowX等环境中,相较于传统的直接动作生成方法,表现出显著的性能提升。在长时间多阶段任务中,提升幅度达到20%以上,显示出其在复杂任务中的有效性。

🎯 应用场景

该研究的潜在应用领域包括机器人操作、自动驾驶、智能家居等需要长时间规划和执行的任务。通过有效的动作标记规划,系统能够在复杂环境中更好地执行多阶段任务,提升操作的准确性和效率。未来,该方法可能推动更智能的交互系统的发展,使得人机协作更加顺畅。

📄 摘要(原文)

Most vision-language-action (VLA) models map observations directly to actions without explicit intermediate planning, which limits performance on long-horizon tasks where early mistakes compound. We propose Coarse-to-Control, a plan-execute VLA that introduces planning natively in the action-token space. The key idea is to let the policy first predict a compact sequence of coarse action tokens that summarize the intended future trajectory, and then generate executable action tokens conditioned on this plan. Because both planning and execution share a unified discrete action vocabulary, the plan stays close to the control manifold and provides directly actionable guidance rather than an abstract hint that must be translated back to motor commands. Experiments on LIBERO, SimplerEnv-WidowX, and real-world manipulation tasks show that action-token planning consistently improves over direct action generation, with the largest gains on long-horizon multi-stage tasks.