Action with Visual Primitives

作者: Weilong Guo, Yuchen Wang, Renping Zhou, Yunfeng Zhang, Rui Fang, Yue Meng, Wenda Xu, Yuan He, Gao Huang

分类: cs.RO, cs.AI

发布日期: 2026-05-21

备注: 9 pages, 6 figures. Project page: https://kingdroper.github.io/AVP/

💡 一句话要点

AVP：利用视觉原语提升机器人操作的泛化性和数据效率

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视觉原语 视觉-语言模型 流匹配 动作规划 机器人学习 泛化能力

📋 核心要点

现有VLA模型将指令理解、场景理解和运动控制耦合，导致学习效率和泛化能力受限。
AVP通过VLM生成视觉原语token来调节动作专家，解耦认知、感知和控制。
真实机器人实验表明，AVP在成功率、数据效率和泛化能力方面均优于现有方法。

📝 摘要（中文）

视觉-语言-动作（VLA）模型在通用机器人操作领域展现出巨大潜力。现有架构通常将语言指令和视觉观察直接映射到动作，但这种方式将指令理解、场景理解和运动控制耦合在一起，导致动作专家需要重新学习预训练VLM中已有的认知和感知能力，限制了学习效率和泛化能力。本文提出AVP（Action with Visual Primitives），一种以视觉原语为中心的端到端架构。该架构利用VLM推断下一阶段目标，并生成视觉原语token，以此调节一个基于流匹配的动作专家，监督信号来自末端执行器的运动学。在真实机器人上的通用抓取放置任务实验表明，AVP的成功率比pi_0.5提高了27.61%，并且优于其他最新方法，在数据效率、空间组合泛化和对象级别迁移方面均有显著提升。

🔬 方法详解

问题定义：现有VLA模型在机器人操作任务中，直接将视觉输入和语言指令映射到动作，这种端到端的学习方式存在效率问题。动作专家需要从头学习视觉和语言理解能力，而这些能力在预训练的视觉-语言模型（VLM）中已经存在。此外，这种耦合的方式限制了模型的泛化能力，难以适应新的场景和任务。

核心思路：AVP的核心思想是将视觉-语言模型的认知能力与动作专家的控制能力解耦。通过引入视觉原语（Visual Primitives）作为中间表示，VLM负责理解指令和场景，并生成相应的视觉原语token，然后动作专家根据这些token生成具体的动作。这样，动作专家只需要关注运动控制，而无需重新学习视觉和语言理解。

技术框架：AVP架构包含两个主要模块：视觉-语言模型（VLM）和动作专家（Action Expert）。VLM接收视觉输入和语言指令，输出视觉原语token，这些token描述了期望的动作目标。动作专家是一个基于流匹配（Flow Matching）的模型，它接收视觉原语token作为条件，生成末端执行器的运动轨迹。整个系统通过端到端的方式进行训练，监督信号来自末端执行器的运动学。

关键创新：AVP的关键创新在于引入了视觉原语作为VLM和动作专家之间的接口。这种设计解耦了认知和控制，使得动作专家可以专注于学习高效的运动控制策略。此外，使用流匹配作为动作专家的建模方法，可以生成连续的、平滑的运动轨迹，提高了机器人的操作性能。

关键设计：VLM可以使用预训练的CLIP模型或其他视觉-语言模型。视觉原语token的设计需要能够有效地描述动作目标，例如目标物体的位置和姿态。流匹配动作专家使用神经网络来学习速度场，通过求解常微分方程（ODE）来生成运动轨迹。损失函数包括运动学损失和正则化项，用于约束运动轨迹的平滑性和可行性。

🖼️ 关键图片

📊 实验亮点

AVP在真实机器人上的通用抓取放置任务中取得了显著的性能提升。实验结果表明，AVP的成功率比pi_0.5提高了27.61%，并且优于其他最新方法。此外，AVP在数据效率、空间组合泛化和对象级别迁移方面均表现出优越性，证明了其在机器人操作领域的潜力。

🎯 应用场景

AVP具有广泛的应用前景，可用于各种机器人操作任务，例如家庭服务机器人、工业自动化机器人和医疗机器人。通过利用视觉原语，AVP可以提高机器人在复杂环境中的操作能力，并降低对大量训练数据的需求。该研究有助于推动机器人技术的智能化和通用化。

📄 摘要（原文）

Vision-Language-Action (VLA) models have emerged as a promising paradigm for generalist robotic manipulation. A common design in current architectures maps language instructions and visual observations to actions in a single forward pass. While conceptually simple, this formulation entangles instruction comprehension, spatial scene understanding, and motor control within a single learning objective. As a result, the action expert must implicitly relearn cognitive and perceptual capabilities already present in the pretrained VLM, which can limit both learning efficiency and generalization. We introduce AVP (Action with Visual Primitives), an end-to-end architecture that implements this visual-primitive-centric interface: the VLM infers the next-stage target and emits visual-primitive tokens that condition a flow-matching action expert, with supervision derived from end-effector kinematics. Real-robot experiments on general pick-and-place tasks show that AVP improves the success rate by 27.61% over pi_0.5 and outperforms other recent methods, with consistent gains in data efficiency, spatial-compositional generalization, and object-level transfer.

Action with Visual Primitives

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理