DexViTac: Collecting Human Visuo-Tactile-Kinematic Demonstrations for Contact-Rich Dexterous Manipulation
作者: Xitong Chen, Yifeng Pan, Min Li, Xiaotian Ding
分类: cs.RO
发布日期: 2026-03-18
备注: 9 pages, 9 figures.Project page: https://xitong-c.github.io/DexViTac/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
DexViTac:用于灵巧操作的视觉-触觉-运动学多模态数据采集系统
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 灵巧操作 触觉感知 多模态学习 机器人学习 数据采集系统
📋 核心要点
- 现有机器人灵巧操作学习方法缺乏高质量、大规模的触觉数据,限制了其在复杂接触任务中的应用。
- DexViTac系统通过便携式硬件,同步采集视觉、触觉、运动学数据,并提出基于运动学的触觉表征学习方法。
- 实验表明,DexViTac系统数据采集效率高,训练的策略在真实环境中表现出色,显著提升了灵巧操作的成功率。
📝 摘要(中文)
大规模、高质量的多模态演示数据对于机器人学习接触丰富的灵巧操作至关重要。虽然以人为中心的数据采集系统降低了数据收集的门槛,但它们难以捕捉物理交互过程中的触觉信息。为此,我们提出了DexViTac,一个便携的、以人为中心的数据采集系统,专为接触丰富的灵巧操作而设计。该系统能够以高保真度获取第一人称视觉、高密度触觉传感、末端执行器姿态和手部运动学信息,且适用于非结构化的真实环境。基于此硬件,我们提出了一种基于运动学的触觉表征学习算法,有效解决了触觉信号中的语义模糊性。利用DexViTac的效率,我们构建了一个包含超过2400个视觉-触觉-运动学演示的多模态数据集。实验表明,DexViTac的收集效率超过每小时248个演示,并且对复杂的视觉遮挡具有鲁棒性。真实环境部署证实,使用所提出的数据集和学习策略训练的策略在四个具有挑战性的任务中实现了超过85%的平均成功率。这一性能显著优于基线方法,从而验证了该系统为学习接触丰富的灵巧操作提供的显著改进。
🔬 方法详解
问题定义:论文旨在解决机器人灵巧操作学习中,缺乏高质量、大规模的视觉-触觉-运动学同步数据的问题。现有的人工数据采集系统难以捕捉细微的触觉信息,且数据标注成本高昂,限制了机器人对接触丰富的操作技能的学习。
核心思路:论文的核心思路是设计一个便携式、以人为中心的数据采集系统,能够同步记录第一人称视觉、高密度触觉、末端执行器姿态和手部运动学信息。同时,提出一种基于运动学的触觉表征学习方法,利用运动学信息来消除触觉信号中的歧义性,从而提高触觉信息的利用率。
技术框架:DexViTac系统主要包含以下几个部分:1) 便携式硬件系统:包括第一人称相机、高密度触觉传感器(安装在手套上)、惯性测量单元(IMU)等,用于同步采集视觉、触觉和运动学数据。2) 数据采集流程:设计高效的数据采集流程,确保数据质量和多样性。3) 基于运动学的触觉表征学习算法:利用手部运动学信息作为先验知识,学习更鲁棒和具有语义信息的触觉表征。4) 策略学习:使用采集的数据和学习到的触觉表征,训练机器人策略,完成灵巧操作任务。
关键创新:论文的关键创新在于:1) 提出了一个便携式、高精度、多模态的数据采集系统,能够同步采集视觉、触觉和运动学数据。2) 提出了一种基于运动学的触觉表征学习算法,有效解决了触觉信号中的语义模糊性,提高了触觉信息的利用率。
关键设计:在硬件方面,选择了高分辨率的第一人称相机和高密度的触觉传感器,以保证数据质量。在算法方面,设计了一种基于对比学习的触觉表征学习方法,利用运动学信息作为正样本,将相似运动状态下的触觉信号拉近,不同运动状态下的触觉信号推远。损失函数包括对比损失和重构损失,以保证学习到的触觉表征既具有区分性,又能够保留原始触觉信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DexViTac系统的数据采集效率高达每小时248个演示,并且对复杂的视觉遮挡具有鲁棒性。使用该系统采集的数据训练的策略在四个具有挑战性的真实环境中灵巧操作任务中,平均成功率超过85%,显著优于基线方法,验证了该系统在学习接触丰富的灵巧操作方面的有效性。
🎯 应用场景
该研究成果可应用于机器人灵巧操作、人机协作、远程操作等领域。通过学习人类的灵巧操作技能,机器人可以更好地完成复杂的操作任务,例如装配、抓取、操作工具等。此外,该系统还可以用于医疗康复、虚拟现实等领域,为用户提供更真实、自然的交互体验。
📄 摘要(原文)
Large-scale, high-quality multimodal demonstrations are essential for robot learning of contact-rich dexterous manipulation. While human-centric data collection systems lower the barrier to scaling, they struggle to capture the tactile information during physical interactions. Motivated by this, we present DexViTac, a portable, human-centric data collection system tailored for contact-rich dexterous manipulation. The system enables the high-fidelity acquisition of first-person vision, high-density tactile sensing, end-effector poses, and hand kinematics within unstructured, in-the-wild environments. Building upon this hardware, we propose a kinematics-grounded tactile representation learning algorithm that effectively resolves semantic ambiguities within tactile signals. Leveraging the efficiency of DexViTac, we construct a multimodal dataset comprising over 2,400 visuo-tactile-kinematic demonstrations. Experiments demonstrate that DexViTac achieves a collection efficiency exceeding 248 demonstrations per hour and remains robust against complex visual occlusions. Real-world deployment confirms that policies trained with the proposed dataset and learning strategy achieve an average success rate exceeding 85% across four challenging tasks. This performance significantly outperforms baseline methods, thereby validating the substantial improvement the system provides for learning contact-rich dexterous manipulation. Project page: https://xitong-c.github.io/DexViTac/.