VADER: Visual Affordance Detection and Error Recovery for Multi Robot Human Collaboration

作者: Michael Ahn, Montserrat Gonzalez Arenas, Matthew Bennice, Noah Brown, Christine Chan, Byron David, Anthony Francis, Gavin Gonzalez, Rainer Hessmer, Tomas Jackson, Nikhil J Joshi, Daniel Lam, Tsang-Wei Edward Lee, Alex Luong, Sharath Maddineni, Harsh Patel, Jodilyn Peralta, Jornell Quiambao, Diego Reyes, Rosario M Jauregui Ruano, Dorsa Sadigh, Pannag Sanketi, Leila Takayama, Pavel Vodenski, Fei Xia

分类: cs.RO

发布日期: 2024-05-25 (更新: 2024-05-30)

备注: 9 pages, 4 figures

💡 一句话要点

VADER：用于多机器人人机协作的视觉可供性检测与错误恢复框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机协作 机器人 视觉可供性 错误恢复 视觉问答 语言模型规划器 长时程任务

📋 核心要点

现有机器人难以应对长时程任务中频繁出现的技能失败和动态环境干扰。
VADER框架通过视觉问答检测可供性和错误，并利用语言模型规划器决定何时寻求人类或机器人帮助。
实验表明，VADER能有效完成复杂任务，例如请求机器人清理桌面或请求人类清理路径。

📝 摘要（中文）

本文提出VADER，一个规划、执行、检测框架，将“寻求帮助”作为一项新技能，使机器人能够在人类或其他机器人的帮助下恢复并完成长时程任务。VADER利用视觉问答（VQA）模块来检测视觉可供性并识别执行错误。然后，它为语言模型规划器（LMP）生成提示，该规划器决定何时寻求其他机器人或人类的帮助，以从长时程任务执行中的错误中恢复。通过两个长时程机器人任务展示了VADER的有效性。初步研究表明，VADER能够通过请求另一个机器人清理桌子来执行复杂的长时程任务。用户研究表明，VADER能够通过请求人类清理路径来执行复杂的长时程任务。收集了人们（N=19）关于VADER性能与不寻求帮助的机器人性能的反馈。

🔬 方法详解

问题定义：现有机器人系统在执行长时程任务时，容易受到环境变化和自身技能缺陷的影响而中断。当机器人遇到无法自行解决的问题时，缺乏有效的错误恢复机制，导致任务失败。现有方法通常依赖于预定义的规则或复杂的环境建模，难以适应动态和未知的场景。

核心思路：VADER的核心思路是将“寻求帮助”作为机器人的一项基本技能，使其能够在遇到困难时主动向人类或其他机器人请求协助。通过结合视觉感知和语言理解能力，机器人能够识别自身遇到的问题，并生成合适的求助请求。这种方法允许机器人利用外部资源来克服自身的局限性，从而提高任务完成的成功率。

技术框架：VADER框架包含三个主要阶段：规划（Plan）、执行（Execute）和检测（Detect）。在规划阶段，语言模型规划器（LMP）根据任务目标生成一系列动作指令。在执行阶段，机器人执行这些指令。在检测阶段，视觉问答（VQA）模块用于检测视觉可供性并识别执行错误。如果检测到错误，LMP会生成提示，决定是否需要寻求帮助。如果需要，机器人会向人类或其他机器人发送求助请求。

关键创新：VADER的关键创新在于将视觉问答和语言模型规划器相结合，实现了一种灵活且可扩展的错误恢复机制。与传统的基于规则或模型的错误处理方法相比，VADER能够更好地适应动态和未知的环境。此外，将“寻求帮助”作为一项基本技能，使得机器人能够利用外部资源来克服自身的局限性。

关键设计：VADER框架中的视觉问答模块使用了预训练的VQA模型，并针对特定任务进行了微调。语言模型规划器使用了大型语言模型，并根据任务需求设计了合适的提示模板。在寻求帮助时，机器人会生成包含问题描述和环境信息的自然语言请求。框架还设计了相应的机制来处理来自人类或机器人的帮助请求，并将其整合到任务执行流程中。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VADER能够显著提高机器人完成长时程任务的成功率。在清理桌子和清理路径两个任务中，配备VADER的机器人能够通过寻求帮助克服自身局限，顺利完成任务。用户研究表明，与不寻求帮助的机器人相比，人们对配备VADER的机器人表现出更高的满意度。

🎯 应用场景

VADER框架可应用于各种人机协作场景，例如智能制造、家庭服务、医疗护理等。在智能制造中，机器人可以与工人协同完成复杂的装配任务。在家庭服务中，机器人可以帮助老年人或残疾人完成日常活动。在医疗护理中，机器人可以协助医生进行手术或康复治疗。VADER的出现将促进人机协作的普及，提高生产效率和服务质量。

📄 摘要（原文）

Robots today can exploit the rich world knowledge of large language models to chain simple behavioral skills into long-horizon tasks. However, robots often get interrupted during long-horizon tasks due to primitive skill failures and dynamic environments. We propose VADER, a plan, execute, detect framework with seeking help as a new skill that enables robots to recover and complete long-horizon tasks with the help of humans or other robots. VADER leverages visual question answering (VQA) modules to detect visual affordances and recognize execution errors. It then generates prompts for a language model planner (LMP) which decides when to seek help from another robot or human to recover from errors in long-horizon task execution. We show the effectiveness of VADER with two long-horizon robotic tasks. Our pilot study showed that VADER is capable of performing complex long-horizon tasks by asking for help from another robot to clear a table. Our user study showed that VADER is capable of performing complex long-horizon tasks by asking for help from a human to clear a path. We gathered feedback from people (N=19) about the performance of the VADER performance vs. a robot that did not ask for help. https://google-vader.github.io/

VADER: Visual Affordance Detection and Error Recovery for Multi Robot Human Collaboration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理