Sparsh: Self-supervised touch representations for vision-based tactile sensing
作者: Carolina Higuera, Akash Sharma, Chaithanya Krishna Bodduluri, Taosha Fan, Patrick Lancaster, Mrinal Kalakrishnan, Michael Kaess, Byron Boots, Mike Lambeta, Tingfan Wu, Mustafa Mukadam
分类: cs.RO
发布日期: 2024-10-31
备注: Conference on Robot Learning (CoRL), 2024
💡 一句话要点
Sparsh:面向视觉触觉传感的自监督通用触觉表征学习
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 触觉感知 自监督学习 机器人操作 视觉触觉融合 表征学习
📋 核心要点
- 现有基于视觉的触觉传感器依赖于手工设计的感知模型,泛化性差,且需要大量特定任务的标注数据。
- Sparsh利用自监督学习,通过掩码和自蒸馏在大量无标签触觉图像上进行预训练,学习通用的触觉表征。
- 实验表明,Sparsh在TacBench基准测试中显著优于特定任务的端到端训练,提升高达95.1%。
📝 摘要(中文)
本文提出了一种通用的触觉表征学习方法Sparsh,用于日益普及的基于视觉的触觉传感器。这类传感器显著补充了视觉信息,推动了机器人操作的进步。然而,目前的解决方案通常依赖于特定任务和传感器的手工设计的感知模型。由于不同形状的传感器在光照和凝胶标记等方面存在差异,大规模收集带有任务中心ground truth标签(如接触力和滑移)的真实数据是一项挑战。为了解决这个问题,我们转向在计算机视觉领域表现出色的自监督学习(SSL)。我们提出了Sparsh,一个SSL模型家族,可以支持各种基于视觉的触觉传感器,通过在超过46万张触觉图像上进行掩码和像素及潜在空间中的自蒸馏预训练,从而减轻了对自定义标签的需求。我们还构建了TacBench,以促进跨传感器和模型的标准化基准测试,包括六个任务,范围从理解触觉属性到实现物理感知和操作规划。在评估中,我们发现触觉表征的SSL预训练在TacBench上的表现平均优于任务和传感器特定的端到端训练95.1%,并且Sparsh (DINO)和Sparsh (IJEPA)是最具竞争力的,表明在潜在空间中学习触觉图像的优点。
🔬 方法详解
问题定义:论文旨在解决基于视觉的触觉传感器在机器人操作中应用时,对特定任务和传感器定制感知模型的需求问题。现有方法依赖于手工特征或需要大量标注数据进行端到端训练,泛化能力差,且难以适应不同类型的触觉传感器。
核心思路:论文的核心思路是利用自监督学习(SSL)从大量无标签的触觉图像中学习通用的触觉表征。通过预训练,模型可以提取与任务无关的触觉特征,从而减少对特定任务标注数据的依赖,并提高模型在不同传感器上的泛化能力。
技术框架:Sparsh的技术框架主要包括两个阶段:预训练阶段和微调阶段。在预训练阶段,模型使用大量的无标签触觉图像进行自监督学习,学习通用的触觉表征。在微调阶段,模型使用少量特定任务的标注数据进行微调,以适应具体的任务需求。Sparsh支持多种自监督学习算法,包括基于像素空间的掩码图像建模和基于潜在空间的自蒸馏。
关键创新:论文的关键创新在于提出了一个通用的自监督学习框架Sparsh,用于学习基于视觉的触觉传感器的触觉表征。与现有方法相比,Sparsh不需要手工设计特征或大量标注数据,可以自动从无标签数据中学习有用的触觉特征。此外,Sparsh支持多种自监督学习算法,可以灵活地适应不同的传感器和任务。
关键设计:Sparsh的关键设计包括:1) 使用掩码图像建模(如MAE)或自蒸馏(如DINO、IJEPA)作为预训练目标,鼓励模型学习图像的上下文信息和潜在表征;2) 构建了TacBench基准测试,用于评估不同触觉表征学习方法的性能;3) 采用了大规模的无标签触觉图像数据集进行预训练,保证了模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
Sparsh在TacBench基准测试中取得了显著的性能提升。与任务和传感器特定的端到端训练相比,Sparsh的平均性能提升高达95.1%。其中,使用DINO和IJEPA进行预训练的Sparsh模型表现最佳,表明在潜在空间中学习触觉图像的优点。这些结果表明,自监督学习是学习通用触觉表征的有效方法,可以显著提高触觉感知系统的性能和泛化能力。
🎯 应用场景
Sparsh的潜在应用领域包括机器人操作、物体识别、表面材质识别等。通过学习通用的触觉表征,机器人可以更好地理解和感知周围环境,从而实现更智能、更灵活的操作。该研究的实际价值在于降低了触觉感知系统的开发成本和难度,促进了触觉传感器在机器人领域的广泛应用。未来,Sparsh可以进一步扩展到其他类型的触觉传感器,并与其他感知模态(如视觉、听觉)进行融合,从而实现更全面的机器人感知能力。
📄 摘要(原文)
In this work, we introduce general purpose touch representations for the increasingly accessible class of vision-based tactile sensors. Such sensors have led to many recent advances in robot manipulation as they markedly complement vision, yet solutions today often rely on task and sensor specific handcrafted perception models. Collecting real data at scale with task centric ground truth labels, like contact forces and slip, is a challenge further compounded by sensors of various form factor differing in aspects like lighting and gel markings. To tackle this we turn to self-supervised learning (SSL) that has demonstrated remarkable performance in computer vision. We present Sparsh, a family of SSL models that can support various vision-based tactile sensors, alleviating the need for custom labels through pre-training on 460k+ tactile images with masking and self-distillation in pixel and latent spaces. We also build TacBench, to facilitate standardized benchmarking across sensors and models, comprising of six tasks ranging from comprehending tactile properties to enabling physical perception and manipulation planning. In evaluations, we find that SSL pre-training for touch representation outperforms task and sensor-specific end-to-end training by 95.1% on average over TacBench, and Sparsh (DINO) and Sparsh (IJEPA) are the most competitive, indicating the merits of learning in latent space for tactile images. Project page: https://sparsh-ssl.github.io/