exUMI: Extensible Robot Teaching System with Action-aware Task-agnostic Tactile Representation
作者: Yue Xu, Litao Wei, Pengyu An, Qingyu Zhang, Yong-Lu Li
分类: cs.RO
发布日期: 2025-09-18
备注: Accepted at CoRL 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
exUMI:基于动作感知的触觉表示,可扩展的机器人教学系统
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 触觉机器人 机器人学习 触觉感知 预训练 数据采集
📋 核心要点
- 现有触觉机器人学习面临数据稀缺、数据稀疏以及缺乏力反馈等问题,限制了其发展。
- 论文提出exUMI系统,通过硬件和算法协同设计,实现高效的触觉数据采集和动作感知的触觉表征学习。
- 实验表明,提出的触觉预测预训练(TPP)方法优于传统的触觉模仿学习,提升了机器人操作性能。
📝 摘要(中文)
本文提出了一种触觉机器人学习系统,在硬件和算法上均有创新,旨在解决数据稀缺和稀疏以及现有系统中缺乏力反馈等关键挑战。我们介绍了exUMI,一种可扩展的数据收集设备,它通过AR MoCap和旋转编码器增强了原始UMI的鲁棒本体感知能力,并实现了模块化的视觉-触觉传感和自动校准,从而实现了100%的数据可用性。基于超过100万触觉帧的高效收集,我们提出了触觉预测预训练(TPP),这是一种通过动作感知的时序触觉预测的表征学习框架,可以捕获接触动力学并减轻触觉稀疏性。真实世界的实验表明,TPP优于传统的触觉模仿学习。我们的工作通过共同设计的硬件和算法弥合了人类触觉直觉和机器人学习之间的差距,并提供开源资源以推进接触丰富的操作研究。
🔬 方法详解
问题定义:现有的触觉机器人学习方法面临数据收集困难和触觉数据稀疏性的挑战。此外,许多系统缺乏力反馈,限制了机器人对环境的感知和交互能力。这些问题阻碍了触觉信息在机器人操作中的有效应用。
核心思路:论文的核心思路是通过硬件创新和算法设计相结合,构建一个高效、可扩展的触觉数据采集系统,并利用动作感知的时序预测方法学习鲁棒的触觉表征。通过预训练的方式,缓解触觉数据的稀疏性问题,提升模型的泛化能力。
技术框架:该系统包含以下几个主要模块:1) exUMI硬件平台:集成了AR MoCap、旋转编码器、视觉传感器和触觉传感器,实现高精度的数据采集和自动校准。2) 数据采集模块:高效收集超过100万帧的触觉数据。3) 触觉预测预训练(TPP):利用动作信息进行时序触觉预测,学习触觉表征。4) 任务执行模块:将学习到的触觉表征应用于实际的机器人操作任务。
关键创新:1) exUMI硬件平台:通过模块化设计和自动校准,提高了数据采集的效率和可用性。2) 触觉预测预训练(TPP):利用动作信息进行时序触觉预测,有效缓解了触觉数据的稀疏性问题,并提升了模型的泛化能力。与传统方法相比,TPP能够更好地捕获接触动力学。
关键设计:TPP框架的关键设计包括:1) 动作编码器:用于提取动作信息。2) 触觉预测器:基于动作信息预测未来的触觉状态。3) 损失函数:采用均方误差(MSE)等损失函数,优化触觉预测器的性能。4) 网络结构:可以使用Transformer等模型进行时序建模和预测。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的触觉预测预训练(TPP)方法在真实世界的机器人操作任务中优于传统的触觉模仿学习方法。具体而言,TPP在物体抓取和操作任务上的成功率显著提升,表明其能够更好地学习和利用触觉信息。此外,exUMI硬件平台实现了100%的数据可用性,大大提高了数据采集的效率。
🎯 应用场景
该研究成果可应用于各种需要精细操作和触觉反馈的机器人应用场景,例如:医疗机器人手术、精密装配、物体抓取和操作、以及人机协作等。通过提升机器人对环境的感知和交互能力,可以提高自动化水平和工作效率,并降低操作风险。未来,该技术有望在智能制造、医疗健康等领域发挥重要作用。
📄 摘要(原文)
Tactile-aware robot learning faces critical challenges in data collection and representation due to data scarcity and sparsity, and the absence of force feedback in existing systems. To address these limitations, we introduce a tactile robot learning system with both hardware and algorithm innovations. We present exUMI, an extensible data collection device that enhances the vanilla UMI with robust proprioception (via AR MoCap and rotary encoder), modular visuo-tactile sensing, and automated calibration, achieving 100% data usability. Building on an efficient collection of over 1 M tactile frames, we propose Tactile Prediction Pretraining (TPP), a representation learning framework through action-aware temporal tactile prediction, capturing contact dynamics and mitigating tactile sparsity. Real-world experiments show that TPP outperforms traditional tactile imitation learning. Our work bridges the gap between human tactile intuition and robot learning through co-designed hardware and algorithms, offering open-source resources to advance contact-rich manipulation research. Project page: https://silicx.github.io/exUMI.