Robotic Visual Instruction

📄 arXiv: 2505.00693v3 📥 PDF

作者: Yanbang Li, Ziyang Gong, Haoyang Li, Xiaoqi Huang, Haolan Kang, Guangping Bai, Xianzheng Ma

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-05-01 (更新: 2025-07-27)

备注: Project website: https://robotic-visual-instruction.github.io/


💡 一句话要点

提出RoVI:一种通过手绘视觉指令引导机器人任务的新范式,解决自然语言交互的空间精度不足问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 机器人视觉指令 视觉-语言模型 具身智能 人机交互 手绘指令

📋 核心要点

  1. 自然语言交互缺乏空间精度,且在安静环境中不适用,限制了机器人任务的定义和应用。
  2. RoVI通过手绘视觉指令编码时空信息,利用视觉-语言模型解码并生成3D动作序列,实现精确控制。
  3. VIEW在真实和模拟环境中表现出良好的泛化能力,在复杂真实场景中成功率达到87.5%。

📝 摘要(中文)

本文提出了一种新的机器人交互范式——机器人视觉指令(RoVI),通过对象中心的手绘符号表示来引导机器人任务。RoVI利用箭头、圆圈、颜色和数字等2D草图,将时空信息编码成人类可理解的视觉指令,从而指导3D机器人操作,克服了自然语言交互在空间精度上的不足。为了使机器人更好地理解RoVI并生成精确的动作,本文提出了视觉指令具身工作流(VIEW),一个为RoVI条件策略设计的流程。该方法利用视觉-语言模型(VLMs)来解释RoVI输入,通过关键点提取从2D像素空间解码空间和时间约束,然后将其转换为可执行的3D动作序列。此外,本文还整理了一个包含1.5万个实例的专门数据集,用于微调小型VLMs以进行边缘部署,使其能够有效地学习RoVI能力。在真实和模拟环境中对11个新任务进行了严格验证,证明了VIEW的显著泛化能力。在涉及多步骤动作、干扰和轨迹跟踪要求的真实场景中,VIEW实现了87.5%的成功率。

🔬 方法详解

问题定义:现有机器人交互主要依赖自然语言,但自然语言在描述空间关系时存在模糊性和冗余性,难以精确指导机器人操作。此外,在图书馆、医院等需要保持安静的公共场所,语音交互受到限制。因此,需要一种更直观、精确且适用于各种环境的机器人交互方式。

核心思路:本文的核心思路是利用手绘视觉指令(RoVI)作为机器人任务的指导方式。RoVI通过箭头、圆圈、颜色和数字等符号,将空间和时间信息编码到2D草图中,从而提供清晰、明确的任务指令。这种方式既直观易懂,又避免了自然语言的模糊性,同时适用于各种环境。

技术框架:本文提出的视觉指令具身工作流(VIEW)包含以下几个主要模块:1) 视觉-语言模型(VLM):用于解释RoVI输入,理解手绘指令的含义。2) 关键点提取:从2D像素空间中提取关键点,解码空间和时间约束。3) 3D动作序列生成:将提取的关键点信息转换为可执行的3D动作序列,指导机器人完成任务。整个流程将视觉指令转化为机器人可执行的动作,实现了基于视觉指令的机器人控制。

关键创新:本文最重要的技术创新点在于提出了RoVI这种新的机器人交互范式。与传统的自然语言交互相比,RoVI更加直观、精确,且不受环境限制。此外,VIEW流程通过VLM和关键点提取,实现了从2D视觉指令到3D动作序列的转换,解决了视觉指令的理解和执行问题。

关键设计:为了使VLM能够更好地理解RoVI,本文专门构建了一个包含1.5万个实例的数据集,用于微调小型VLMs。这种针对性的微调可以提高VLM在RoVI任务上的性能,使其能够更准确地理解手绘指令。此外,关键点提取模块的设计也至关重要,需要能够准确地从2D像素空间中提取关键点信息,为后续的3D动作序列生成提供可靠的基础。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VIEW在真实和模拟环境中进行了广泛的实验验证,结果表明其具有良好的泛化能力。在真实场景中,VIEW在涉及多步骤动作、干扰和轨迹跟踪要求的任务中,实现了87.5%的成功率。这表明RoVI和VIEW能够有效地应对复杂环境中的挑战,为实际应用奠定了基础。

🎯 应用场景

RoVI具有广泛的应用前景,例如在智能家居中,用户可以通过简单的手绘指令控制机器人完成各种家务任务;在医疗领域,医生可以通过RoVI指导机器人进行手术辅助或药物配送;在工业生产中,工人可以通过RoVI快速设置机器人的工作流程。RoVI有望成为一种通用的机器人交互方式,促进人与机器人之间的协作。

📄 摘要(原文)

Recently, natural language has been the primary medium for human-robot interaction. However, its inherent lack of spatial precision introduces challenges for robotic task definition such as ambiguity and verbosity. Moreover, in some public settings where quiet is required, such as libraries or hospitals, verbal communication with robots is inappropriate. To address these limitations, we introduce the Robotic Visual Instruction (RoVI), a novel paradigm to guide robotic tasks through an object-centric, hand-drawn symbolic representation. RoVI effectively encodes spatial-temporal information into human-interpretable visual instructions through 2D sketches, utilizing arrows, circles, colors, and numbers to direct 3D robotic manipulation. To enable robots to understand RoVI better and generate precise actions based on RoVI, we present Visual Instruction Embodied Workflow (VIEW), a pipeline formulated for RoVI-conditioned policies. This approach leverages Vision-Language Models (VLMs) to interpret RoVI inputs, decode spatial and temporal constraints from 2D pixel space via keypoint extraction, and then transform them into executable 3D action sequences. We additionally curate a specialized dataset of 15K instances to fine-tune small VLMs for edge deployment,enabling them to effectively learn RoVI capabilities. Our approach is rigorously validated across 11 novel tasks in both real and simulated environments, demonstrating significant generalization capability. Notably, VIEW achieves an 87.5% success rate in real-world scenarios involving unseen tasks that feature multi-step actions, with disturbances, and trajectory-following requirements. Project website: https://robotic-visual-instruction.github.io/