OPENTOUCH: Bringing Full-Hand Touch to Real-World Interaction
作者: Yuxin Ray Song, Jinzhou Li, Rao Fu, Devin Murphy, Kaichen Zhou, Rishi Shiv, Yaqi Li, Haoyu Xiong, Crystal Elaine Owens, Yilun Du, Yiyue Luo, Xianyi Cheng, Antonio Torralba, Wojciech Matusik, Paul Pu Liang
分类: cs.CV, cs.AI, cs.RO
发布日期: 2025-12-18
备注: https://opentouch-tactile.github.io/
💡 一句话要点
OpenTouch:构建真实场景下完整手部触觉交互数据集与基准
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 触觉感知 具身智能 机器人操作 多模态学习 第一人称视角 数据集 基准测试
📋 核心要点
- 现有方法缺乏在真实场景下同步第一人称视频与完整手部触觉的数据集,阻碍了视觉感知与物理交互的研究。
- OpenTouch数据集包含同步的视频、触觉和姿势数据,并提供检索和分类基准,用于研究触觉对感知和行动的影响。
- 实验表明,触觉信号能有效理解抓取动作,增强跨模态对齐,并能从视频查询中可靠检索触觉信息。
📝 摘要(中文)
人手是与物理世界交互的主要界面,但以自我为中心的感知很少知道何时、何地或以多大力度进行接触。目前缺乏稳健的可穿戴触觉传感器,并且没有现有的真实场景数据集将第一人称视频与完整手部触觉对齐。为了弥合视觉感知和物理交互之间的差距,我们提出了OpenTouch,这是第一个真实场景的以自我为中心的完整手部触觉数据集,包含5.1小时的同步视频-触觉-姿势数据和2,900个带有详细文本注释的精选片段。使用OpenTouch,我们引入了检索和分类基准,以探究触觉如何支撑感知和行动。我们表明,触觉信号为理解抓取提供了一个紧凑而强大的线索,加强了跨模态对齐,并且可以从真实场景的视频查询中可靠地检索。通过发布这个带注释的视觉-触觉-姿势数据集和基准,我们的目标是推进多模态以自我为中心的感知、具身学习和富含接触的机器人操作。
🔬 方法详解
问题定义:现有方法缺乏在真实场景下同步第一人称视角视频与完整手部触觉信息的数据集。这使得研究人员难以探索触觉在感知和行动中的作用,阻碍了多模态具身智能的发展。现有的可穿戴触觉传感器不够鲁棒,难以在真实场景中应用。
核心思路:OpenTouch的核心思路是构建一个大规模的、真实场景下的、同步的视频-触觉-姿势数据集,并基于此数据集建立基准测试,从而促进多模态具身智能的研究。通过提供高质量的数据和基准,鼓励研究人员探索触觉在感知、行动和跨模态理解中的作用。
技术框架:OpenTouch数据集的构建流程主要包括数据采集、数据同步、数据标注和基准测试建立四个阶段。数据采集阶段使用可穿戴设备同步记录第一人称视角视频、手部触觉信息和手部姿势信息。数据同步阶段将不同模态的数据进行时间对齐。数据标注阶段对视频片段进行详细的文本描述。基准测试建立阶段设计了检索和分类任务,用于评估不同模型在理解触觉信息方面的能力。
关键创新:OpenTouch的关键创新在于它是第一个在真实场景下采集的、包含完整手部触觉信息的、以自我为中心的数据集。此外,OpenTouch还提供了详细的文本标注和基准测试,方便研究人员进行模型评估和比较。
关键设计:OpenTouch数据集包含5.1小时的同步视频-触觉-姿势数据和2,900个带有详细文本注释的精选片段。触觉数据由可穿戴触觉传感器采集,姿势数据由动作捕捉系统采集。数据集的标注包括手部动作、交互对象和环境描述等信息。检索任务旨在根据视频查询检索相关的触觉信息,分类任务旨在根据触觉信息识别手部动作。
🖼️ 关键图片
📊 实验亮点
OpenTouch数据集上的实验表明,触觉信号能够显著提升抓取理解的性能,并增强跨模态对齐的效果。通过检索实验,证明了触觉信息可以从真实场景的视频查询中可靠地检索出来。这些结果表明,触觉在感知和行动中扮演着重要的角色,OpenTouch数据集为进一步研究触觉提供了有力的支持。
🎯 应用场景
OpenTouch数据集和基准测试可以广泛应用于机器人操作、虚拟现实、增强现实和人机交互等领域。例如,可以用于训练机器人更好地理解和执行抓取任务,提高虚拟现实和增强现实的沉浸感,以及开发更自然和直观的人机交互界面。该研究有助于推动具身智能的发展,使机器能够更好地理解和适应物理世界。
📄 摘要(原文)
The human hand is our primary interface to the physical world, yet egocentric perception rarely knows when, where, or how forcefully it makes contact. Robust wearable tactile sensors are scarce, and no existing in-the-wild datasets align first-person video with full-hand touch. To bridge the gap between visual perception and physical interaction, we present OpenTouch, the first in-the-wild egocentric full-hand tactile dataset, containing 5.1 hours of synchronized video-touch-pose data and 2,900 curated clips with detailed text annotations. Using OpenTouch, we introduce retrieval and classification benchmarks that probe how touch grounds perception and action. We show that tactile signals provide a compact yet powerful cue for grasp understanding, strengthen cross-modal alignment, and can be reliably retrieved from in-the-wild video queries. By releasing this annotated vision-touch-pose dataset and benchmark, we aim to advance multimodal egocentric perception, embodied learning, and contact-rich robotic manipulation.