RoboRetriever: Single-Camera Robot Object Retrieval via Active and Interactive Perception with Dynamic Scene Graph

📄 arXiv: 2508.12916v1 📥 PDF

作者: Hecheng Wang, Jiankun Ren, Jia Yu, Lizhe Qi, Yunquan Sun

分类: cs.RO

发布日期: 2025-08-18


💡 一句话要点

提出RoboRetriever以解决单摄像头机器人物体检索问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 机器人视觉 物体检索 动态场景图 主动感知 交互感知 自然语言处理 单摄像头系统

📋 核心要点

  1. 现有机器人物体检索系统依赖固定或多摄像头设置,限制了适应性并增加了硬件成本。
  2. RoboRetriever通过单个RGB-D摄像头和自然语言指令,构建动态层次场景图,实现物体检索。
  3. 在真实场景中进行评估,RoboRetriever展示了在杂乱环境中的强适应性和鲁棒性。

📝 摘要(中文)

人类在杂乱和部分可观察环境中轻松检索物体,依赖视觉推理、主动视角调整和物理交互。相比之下,现有机器人系统通常依赖固定或多摄像头设置,限制了适应性并增加了硬件成本。本文提出RoboRetriever,一个仅使用单个腕部RGB-D摄像头和自然语言指令的物体检索框架。RoboRetriever通过构建和更新动态层次场景图来编码物体语义、几何和物体间关系。监督模块基于此内存和任务指令推理目标物体,并协调结合主动感知、交互感知和操控的综合行动模块。为实现任务感知的场景基础主动感知,本文引入了一种新颖的视觉提示方案,利用大型推理视觉-语言模型确定与语义任务目标和几何场景上下文对齐的6自由度摄像头姿态。我们在多种真实世界物体检索任务上评估RoboRetriever,展示了其在杂乱场景中仅用一个RGB-D摄像头的强适应性和鲁棒性。

🔬 方法详解

问题定义:本文旨在解决现有机器人物体检索系统在复杂环境中适应性差和硬件成本高的问题。现有方法通常依赖于固定或多摄像头的设置,无法灵活应对动态场景。

核心思路:RoboRetriever的核心思路是利用单个腕部RGB-D摄像头和自然语言指令,通过构建和更新动态层次场景图来实现物体的有效检索。这种设计使得机器人能够在不依赖复杂硬件的情况下,灵活应对各种环境。

技术框架:RoboRetriever的整体架构包括三个主要模块:动态层次场景图构建模块、监督推理模块和综合行动模块。动态层次场景图用于编码物体的语义、几何和关系,监督模块负责推理目标物体,而行动模块则结合主动感知、交互感知和操控。

关键创新:RoboRetriever的主要创新在于引入了一种新颖的视觉提示方案,利用大型推理视觉-语言模型来确定与任务目标和场景上下文对齐的6自由度摄像头姿态。这一创新使得机器人能够在复杂环境中进行有效的物体检索。

关键设计:在设计中,RoboRetriever采用了动态层次场景图来实时更新物体信息,并通过监督模块进行目标推理。此外,视觉提示方案的实现依赖于大型视觉-语言模型的推理能力,以确保摄像头姿态的准确性和任务的相关性。

📊 实验亮点

在多种真实世界物体检索任务中,RoboRetriever展示了强大的适应性和鲁棒性。在杂乱场景中,仅使用一个RGB-D摄像头,RoboRetriever的物体检索成功率显著高于传统多摄像头系统,具体性能数据尚未披露。

🎯 应用场景

RoboRetriever的研究成果在智能家居、仓储物流和人机协作等领域具有广泛的应用潜力。通过实现高效的物体检索,机器人能够更好地与人类协作,提升工作效率和用户体验。未来,该技术有望在更多复杂环境中得到应用,推动机器人智能化的发展。

📄 摘要(原文)

Humans effortlessly retrieve objects in cluttered, partially observable environments by combining visual reasoning, active viewpoint adjustment, and physical interaction-with only a single pair of eyes. In contrast, most existing robotic systems rely on carefully positioned fixed or multi-camera setups with complete scene visibility, which limits adaptability and incurs high hardware costs. We present \textbf{RoboRetriever}, a novel framework for real-world object retrieval that operates using only a \textbf{single} wrist-mounted RGB-D camera and free-form natural language instructions. RoboRetriever grounds visual observations to build and update a \textbf{dynamic hierarchical scene graph} that encodes object semantics, geometry, and inter-object relations over time. The supervisor module reasons over this memory and task instruction to infer the target object and coordinate an integrated action module combining \textbf{active perception}, \textbf{interactive perception}, and \textbf{manipulation}. To enable task-aware scene-grounded active perception, we introduce a novel visual prompting scheme that leverages large reasoning vision-language models to determine 6-DoF camera poses aligned with the semantic task goal and geometry scene context. We evaluate RoboRetriever on diverse real-world object retrieval tasks, including scenarios with human intervention, demonstrating strong adaptability and robustness in cluttered scenes with only one RGB-D camera.