The Wilhelm Tell Dataset of Affordance Demonstrations

📄 arXiv: 2507.17401v1 📥 PDF

作者: Rachel Ringe, Mihai Pomarlan, Nikolaos Tsiogkas, Stefano De Giorgis, Maria Hedblom, Rainer Malaka

分类: cs.RO, cs.HC

发布日期: 2025-07-23

备注: \c{opyright} 2025 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works

期刊: 2025 20th ACM/IEEE International Conference on Human-Robot Interaction (HRI), Melbourne, Australia, 2025, pp. 1078-1082

DOI: 10.1109/HRI61500.2025.10973984


💡 一句话要点

提出Wilhelm Tell数据集,用于训练机器人感知环境交互能力

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: Affordance学习 机器人感知 数据集 具身智能 人机交互

📋 核心要点

  1. 现有机器人 affordance 学习方法依赖静态图像或形状数据,缺乏动态交互信息。
  2. 该论文构建包含第一人称和第三人称视角的视频数据集,并标注 affordance 元数据。
  3. 数据集包含多种任务执行方式,可用于研究人类任务准备动作,利于协作机器人。

📝 摘要(中文)

具身智能体理解环境提供的交互可能性(即 affordance)至关重要。现有方法主要依赖于静态图像或形状的标注数据来训练这种能力。本文提出了一个新颖的数据集,用于学习常见家庭任务中的 affordance。与以往方法不同,该数据集包含第一人称和第三人称视角的任务演示视频序列,以及关于任务中表现出的 affordance 的元数据,旨在训练感知系统识别 affordance 的表现形式。演示数据由多名参与者收集,总共记录了约七小时的人类活动。任务执行方式的多样性也允许研究人们为任务执行的准备动作,例如他们如何安排任务空间,这对协作服务机器人也具有重要意义。

🔬 方法详解

问题定义:现有机器人 affordance 感知方法主要依赖于静态图像或三维形状数据,缺乏动态交互过程的信息,难以学习人类在执行任务时的 affordance 表现形式,例如准备动作和任务空间安排。这限制了机器人在复杂人类环境中有效执行任务的能力。

核心思路:该论文的核心思路是通过构建一个包含人类执行常见家庭任务视频的数据集,并对视频中的 affordance 进行标注,从而为机器人提供学习 affordance 表现形式的训练数据。通过观察人类如何与环境交互,机器人可以学习到更丰富的 affordance 信息,从而更好地理解和执行任务。

技术框架:该数据集的构建流程主要包括以下几个阶段:1) 任务选择:选择常见的家庭任务作为演示对象。2) 数据采集:招募多名参与者,从第一人称和第三人称视角录制他们执行任务的视频。3) 数据标注:对视频中的 affordance 进行标注,包括 affordance 的类型、位置和时间等信息。4) 数据集构建:将视频和标注数据整理成数据集,并提供相应的元数据。

关键创新:该论文的关键创新在于构建了一个包含动态交互过程的 affordance 数据集。与以往的静态图像或形状数据集相比,该数据集能够提供更丰富的 affordance 信息,例如人类在执行任务时的准备动作和任务空间安排。此外,该数据集还包含第一人称和第三人称视角的视频,可以用于训练机器人从不同视角感知 affordance。

关键设计:数据集包含约七小时的人类活动视频,涵盖多种家庭任务。视频从第一人称和第三人称视角录制,以提供不同的视角信息。数据集包含 affordance 的元数据,例如 affordance 的类型、位置和时间等信息。数据集的设计考虑了任务执行方式的多样性,以允许研究人类为任务执行的准备动作。

🖼️ 关键图片

fig_0

📊 实验亮点

该数据集包含约7小时的人类活动视频,涵盖多种家庭任务,从第一人称和第三人称视角记录。数据集标注了 affordance 的类型、位置和时间等元数据。任务执行方式的多样性允许研究人类为任务执行的准备动作,为协作服务机器人提供有价值的信息。

🎯 应用场景

该研究成果可应用于服务机器人、人机协作等领域。通过学习该数据集,机器人能够更好地理解人类的意图,并与人类进行更自然的交互。例如,服务机器人可以根据人类的准备动作预测其下一步行动,从而提供更智能的帮助。此外,该数据集还可以用于训练机器人自主规划任务,提高其在复杂环境中的适应能力。

📄 摘要(原文)

Affordances - i.e. possibilities for action that an environment or objects in it provide - are important for robots operating in human environments to perceive. Existing approaches train such capabilities on annotated static images or shapes. This work presents a novel dataset for affordance learning of common household tasks. Unlike previous approaches, our dataset consists of video sequences demonstrating the tasks from first- and third-person perspectives, along with metadata about the affordances that are manifested in the task, and is aimed towards training perception systems to recognize affordance manifestations. The demonstrations were collected from several participants and in total record about seven hours of human activity. The variety of task performances also allows studying preparatory maneuvers that people may perform for a task, such as how they arrange their task space, which is also relevant for collaborative service robots.