TouchAnything: A Dataset and Framework for Bimanual Tactile Estimation from Egocentric Video
作者: Jianyi Zhou, Ziteng Gao, Feiyang Hong, Zirui Liu, Guannan Zhang, Weisheng Dai, Ruichen Zhen, Chuqiao Lyu, Haotian Wu, Yinian Mao, Xushi Wang, Yuxiang Jiang, Wenbo Ding, Shuo Yang
分类: cs.RO
发布日期: 2026-05-13
💡 一句话要点
提出TouchAnything框架与EgoTouch数据集,用于从第一视角视频中估计双手动触觉信息。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 触觉估计 第一视角视频 具身智能 多视角学习 数据集 机器人操作 视觉触觉融合
📋 核心要点
- 现有第一视角数据集缺乏触觉信息,限制了模型学习物理世界交互的具身智能。
- 提出EgoTouch数据集和TouchAnything框架,通过视觉信息预测触觉反馈,实现可扩展的触觉监督。
- 实验表明,结合腕部视角信息可以有效提升触觉预测精度,接触IoU和体积IoU分别提升5.0%和6.1%。
📝 摘要(中文)
本文提出了一种从第一视角视频中进行双手动触觉估计的数据集和框架。现有的第一视角数据集通常缺乏触觉感知,这对于学习具身智能至关重要。为了解决这个问题,本文构建了EgoTouch,一个大规模多视角第一视角数据集,包含密集的触觉监督信息,用于双手的物体交互。EgoTouch包含208个操作任务,1891个片段,涵盖了室内和室外的多种环境,并同步了多视角RGB图像(头戴式第一视角相机和双腕部相机)、双手的3D姿态以及来自可穿戴触觉传感器的连续压力图。基于EgoTouch,本文还提出了TouchAnything,一个基准的多视角视觉到触觉预测框架,该框架以第一视角视图作为主要输入,并灵活地利用可用的腕部视图。实验表明,结合腕部视图通常可以改善触觉预测,在接触IoU方面相对提升高达5.0%,在体积IoU方面相对提升高达6.1%。数据集、代码和基准测试将公开发布。
🔬 方法详解
问题定义:现有第一视角视频数据集缺乏触觉信息,导致模型难以学习到物理世界交互的具身表示。虽然触觉传感器可以提供这些信息,但大规模部署高质量的触觉硬件成本高昂且繁琐。因此,需要解决的问题是如何从视觉观察中推断触觉反馈,从而为第一视角视频数据提供可扩展的触觉监督。
核心思路:核心思路是利用多视角视觉信息(包括头戴式第一视角相机和腕部相机)来预测手部与物体交互时的触觉反馈。通过学习视觉信息到触觉信息的映射关系,可以避免直接使用昂贵的触觉传感器,从而实现可扩展的触觉感知。
技术框架:TouchAnything框架以头戴式第一视角视图作为主要输入,并可选择性地利用腕部相机提供的视角信息。该框架包含一个视觉编码器,用于提取多视角图像的特征;一个融合模块,用于融合来自不同视角的特征;以及一个触觉预测模块,用于预测手部的触觉压力图。在训练阶段,使用EgoTouch数据集提供的真实触觉数据进行监督学习。
关键创新:关键创新在于利用多视角视觉信息来预测触觉反馈,从而避免了对昂贵触觉传感器的依赖。此外,该框架具有灵活性,可以根据可用的视角信息进行调整,例如,在只有头戴式相机的情况下,仍然可以进行触觉预测。
关键设计:框架的具体实现细节未知,论文中可能包含关于视觉编码器、融合模块和触觉预测模块的具体网络结构、损失函数以及训练策略的描述。例如,视觉编码器可能采用卷积神经网络或Transformer结构,融合模块可能使用注意力机制,触觉预测模块可能使用反卷积神经网络或生成对抗网络。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TouchAnything框架能够有效地从多视角视觉信息中预测触觉反馈。与仅使用第一视角图像相比,结合腕部视角信息可以显著提高触觉预测的准确性,接触IoU相对提升高达5.0%,体积IoU相对提升高达6.1%。这些结果验证了该框架的有效性和潜力。
🎯 应用场景
该研究成果可应用于机器人操作、虚拟现实和增强现实等领域。通过视觉预测触觉,机器人可以更好地理解和操作物体,从而提高其在复杂环境中的适应性和灵活性。在VR/AR中,可以为用户提供更真实的触觉反馈,增强沉浸感和交互体验。
📄 摘要(原文)
Egocentric human video data, which captures rich human-environment interactions and can be collected at scale, has become a key driver of embodied intelligence research. However, existing egocentric datasets typically lack tactile sensing, a critical modality that provides direct cues about contact, force, and pressure in human-object interaction. Without such signals, models struggle to learn physically grounded representations of real-world interaction dynamics. While tactile sensors provide these cues, deploying high-quality tactile hardware at scale remains expensive and cumbersome. This raises a central question: can tactile feedback be inferred directly from visual observations, enabling scalable tactile supervision for egocentric video data and supporting physically grounded embodied learning? To enable research in this direction, we introduce EgoTouch, a large-scale multi-view egocentric dataset with dense tactile supervision for bimanual hand-object interaction. EgoTouch comprises 208 manipulation tasks spanning 1,891 episodes in diverse indoor and outdoor environments, with synchronized multi-view RGB (head-mounted egocentric and dual wrist-mounted cameras), bimanual 3D hand pose, and continuous pressure maps from wearable tactile sensors. Building on EgoTouch, we introduce TouchAnything, a baseline multi-view vision-to-touch prediction framework that uses the egocentric view as the primary input and flexibly leverages available wrist-mounted views at inference time. Experiments show that incorporating wrist-mounted views generally improves tactile prediction over egocentric-only input, achieving up to 5.0% relative improvement in Contact IoU and 6.1% relative improvement in Volumetric IoU. We will publicly release the dataset, code, and benchmark.