Robo2VLM: Visual Question Answering from Large-Scale In-the-Wild Robot Manipulation Datasets

📄 arXiv: 2505.15517v2 📥 PDF

作者: Kaiyuan Chen, Shuangyu Xie, Zehan Ma, Pannag R Sanketi, Ken Goldberg

分类: cs.RO, cs.AI, cs.CL, cs.LG

发布日期: 2025-05-21 (更新: 2025-06-18)


💡 一句话要点

提出Robo2VLM框架,利用机器人操作数据增强和评估视觉语言模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视觉语言模型 机器人操作 视觉问答 数据集生成 空间推理

📋 核心要点

  1. 现有视觉语言模型依赖互联网数据,缺乏机器人操作的细粒度理解和推理能力。
  2. Robo2VLM利用机器人轨迹数据,自动生成VQA数据集,侧重空间、目标条件和交互推理。
  3. 实验表明,Robo2VLM-1数据集能够有效评估和提升VLM在机器人操作场景下的推理能力。

📝 摘要(中文)

本文提出Robo2VLM,一个用于视觉语言模型(VLM)的视觉问答(VQA)数据集生成框架。该框架利用人类遥操作的机器人轨迹,从非视觉和非描述性的传感器模态(如末端执行器姿态、夹爪开度和力感应)中提取真值。基于这些模态,Robo2VLM将机器人轨迹分割成一系列操作阶段。在每个阶段,Robo2VLM利用场景和交互理解来识别机器人、任务目标和目标物体的3D属性。这些属性用于生成代表性的VQA查询——带有文本选择题的图像——基于空间、目标条件和交互推理问题模板。作者构建了Robo2VLM-1,一个大规模的真实场景数据集,包含684,710个问题,覆盖463个不同的场景和3,396个机器人操作任务,数据来自17.6万条真实机器人轨迹。结果表明,Robo2VLM-1可以用于基准测试和提高VLM在空间和交互推理方面的能力。

🔬 方法详解

问题定义:现有的视觉语言模型(VLM)主要依赖于互联网规模的图像-文本数据进行训练,虽然具备一定的通用知识和推理能力,但在机器人操作等具体任务中,缺乏对空间关系、目标条件和交互行为的细粒度理解。因此,如何利用机器人操作数据来增强和评估VLM在机器人领域的应用是一个关键问题。

核心思路:本文的核心思路是利用机器人轨迹数据中丰富的多模态信息(如末端执行器姿态、夹爪开度、力感应等),自动生成视觉问答(VQA)数据集。通过设计特定的问题模板,侧重考察VLM在空间推理、目标条件推理和交互推理方面的能力。这样既可以评估VLM在机器人操作场景下的表现,也可以通过微调等方式提升其性能。

技术框架:Robo2VLM框架主要包含以下几个阶段:1) 机器人轨迹分割:将机器人轨迹根据传感器数据分割成不同的操作阶段。2) 场景和交互理解:利用分割后的轨迹,结合视觉信息,识别机器人、任务目标和目标物体的3D属性。3) VQA问题生成:基于识别出的属性,利用预定义的问题模板,生成包含图像和多项选择题的VQA数据。整个流程自动化,可以高效地生成大规模数据集。

关键创新:Robo2VLM的关键创新在于利用非视觉传感器数据(如力感应、关节角度等)作为生成VQA数据的ground truth来源。这与传统的VQA数据集依赖人工标注不同,可以更准确地反映机器人操作过程中的真实状态和交互信息。此外,问题模板的设计也侧重于考察VLM在空间、目标条件和交互推理方面的能力,更贴合机器人操作任务的需求。

关键设计:Robo2VLM框架中,轨迹分割算法的选择和参数设置会影响操作阶段的划分精度。问题模板的设计需要充分考虑机器人操作任务的特点,例如,空间推理问题可以考察VLM对物体相对位置的理解,目标条件推理问题可以考察VLM对任务目标的理解,交互推理问题可以考察VLM对操作行为的理解。此外,为了保证数据集的多样性,可以采用不同的问题模板和场景设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

作者构建了Robo2VLM-1数据集,包含684,710个问题,覆盖463个不同的场景和3,396个机器人操作任务。实验结果表明,现有的VLM在Robo2VLM-1数据集上的表现远低于人类水平,表明VLM在机器人操作场景下的推理能力仍有很大的提升空间。通过在Robo2VLM-1上进行微调,可以显著提高VLM在空间和交互推理方面的性能。

🎯 应用场景

Robo2VLM框架生成的VQA数据集可以广泛应用于机器人领域。例如,可以用于评估和提升VLM在机器人操作任务中的场景理解和任务规划能力,辅助机器人视觉伺服控制,提高机器人操作的智能化水平。此外,该框架还可以扩展到其他机器人应用场景,如自动驾驶、医疗机器人等。

📄 摘要(原文)

Vision-Language Models (VLMs) acquire real-world knowledge and general reasoning ability through Internet-scale image-text corpora. They can augment robotic systems with scene understanding and task planning, and assist visuomotor policies that are trained on robot trajectory data. We explore the reverse paradigm - using rich, real, multi-modal robot trajectory data to enhance and evaluate VLMs. In this paper, we present Robo2VLM, a Visual Question Answering (VQA) dataset generation framework for VLMs. Given a human tele-operated robot trajectory, Robo2VLM derives ground-truth from non-visual and non-descriptive sensory modalities, such as end-effector pose, gripper aperture, and force sensing. Based on these modalities, it segments the robot trajectory into a sequence of manipulation phases. At each phase, Robo2VLM uses scene and interaction understanding to identify 3D properties of the robot, task goal, and the target object. The properties are used to generate representative VQA queries - images with textural multiple-choice questions - based on spatial, goal-conditioned, and interaction reasoning question templates. We curate Robo2VLM-1, a large-scale in-the-wild dataset with 684,710 questions covering 463 distinct scenes and 3,396 robotic manipulation tasks from 176k real robot trajectories. Results suggest that Robo2VLM-1 can benchmark and improve VLM capabilities in spatial and interaction reasoning.