Hoi! -- A Multimodal Dataset for Force-Grounded, Cross-View Articulated Manipulation

📄 arXiv: 2512.04884v1 📥 PDF

作者: Tim Engelbracht, René Zurbrügg, Matteo Wohlrapp, Martin Büchner, Abhinav Valada, Marc Pollefeys, Hermann Blum, Zuria Bauer

分类: cs.RO

发布日期: 2025-12-04


💡 一句话要点

Hoi!:提出用于力感知的、跨视角铰接操作的多模态数据集。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 铰接操作 多模态数据集 力感知 跨视角学习 人机交互 机器人灵巧操作 触觉传感

📋 核心要点

  1. 现有方法在铰接物体操作中缺乏对力觉信息的有效利用和跨视角的泛化能力。
  2. Hoi!数据集通过同步视频、力觉和触觉数据,提供了一个多模态学习的平台。
  3. 该数据集支持研究人员评估不同工具模式下的操作性能,并探索力感知的潜力。

📝 摘要(中文)

本文提出了一个用于力感知的、跨视角铰接操作的多模态数据集,该数据集将真实人机交互过程中所见、所做和所感联系起来。该数据集包含38个环境中381个铰接对象的3048个序列。每个对象在四种工具模式下进行操作:(i)人手,(ii)带有腕部相机的机械臂,(iii)手持UMI夹爪,以及(iv)定制的Hoi!夹爪。工具模式提供同步的末端执行器力和触觉传感。该数据集提供了对交互理解的整体视角,使研究人员能够评估方法在人和机器人视角之间的迁移效果,并研究力感应和预测等未被充分探索的模态。

🔬 方法详解

问题定义:现有铰接物体操作方法通常依赖于视觉信息,忽略了力觉反馈的重要性。这导致在复杂操作中,机器人难以精确控制力和姿态,并且难以在不同视角(例如人手视角和机器人视角)之间进行泛化。缺乏高质量的多模态数据集阻碍了相关研究的进展。

核心思路:Hoi!数据集的核心思路是提供一个包含多种模态信息(视觉、力觉、触觉)的、大规模的铰接物体操作数据集,从而促进力感知和跨视角操作算法的研究。通过模拟不同工具模式(人手、机器人夹爪)的操作,可以更好地理解人机交互的本质,并设计更鲁棒的机器人控制策略。

技术框架:Hoi!数据集的构建涉及多个环节:首先,选择了38个不同的环境和381个铰接对象。然后,使用四种不同的工具模式(人手、带有腕部相机的机械臂、手持UMI夹爪、定制Hoi!夹爪)对每个对象进行操作,并记录同步的视频、末端执行器力和触觉传感数据。数据集包含3048个序列,涵盖了各种操作场景和工具模式。

关键创新:Hoi!数据集的关键创新在于其多模态性和跨视角性。它不仅提供了丰富的视觉信息,还包含了同步的力觉和触觉数据,这使得研究人员可以探索力感知在铰接物体操作中的作用。此外,数据集还涵盖了不同工具模式下的操作,这有助于研究跨视角操作的泛化能力。

关键设计:定制的Hoi!夹爪的设计是关键之一,它能够提供精确的末端执行器力和触觉传感数据。数据集的标注和同步机制也至关重要,确保不同模态的数据能够准确对齐。此外,数据集的规模和多样性也是其价值所在,涵盖了各种铰接对象和操作场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Hoi!数据集包含3048个序列,涵盖381个铰接对象和38个环境,规模较大。数据集提供了四种工具模式下的操作数据,包括人手、带有腕部相机的机械臂、手持UMI夹爪和定制Hoi!夹爪,为跨视角操作研究提供了便利。同步的力觉和触觉数据为力感知算法的研究提供了支持。

🎯 应用场景

该数据集可应用于机器人灵巧操作、人机协作、远程操作等领域。通过学习该数据集,可以开发出更智能、更鲁棒的机器人控制算法,使机器人能够更好地理解和执行复杂的铰接物体操作任务。此外,该数据集还可以用于研究人机交互的本质,从而设计更自然、更高效的人机协作界面。

📄 摘要(原文)

We present a dataset for force-grounded, cross-view articulated manipulation that couples what is seen with what is done and what is felt during real human interaction. The dataset contains 3048 sequences across 381 articulated objects in 38 environments. Each object is operated under four embodiments - (i) human hand, (ii) human hand with a wrist-mounted camera, (iii) handheld UMI gripper, and (iv) a custom Hoi! gripper - where the tool embodiment provides synchronized end-effector forces and tactile sensing. Our dataset offers a holistic view of interaction understanding from video, enabling researchers to evaluate how well methods transfer between human and robotic viewpoints, but also investigate underexplored modalities such as force sensing and prediction.