Self-supervised perception for tactile skin covered dexterous hands

📄 arXiv: 2505.11420v1 📥 PDF

作者: Akash Sharma, Carolina Higuera, Chaithanya Krishna Bodduluri, Zixi Liu, Taosha Fan, Tess Hellebrekers, Mike Lambeta, Byron Boots, Michael Kaess, Tingfan Wu, Francois Robert Hogan, Mustafa Mukadam

分类: cs.RO

发布日期: 2025-05-16

备注: 18 pages, 15 figures


💡 一句话要点

提出Sparsh-skin,用于灵巧手磁性皮肤触觉感知的自监督预训练编码器。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 触觉感知 磁性皮肤传感器 自监督学习 自蒸馏 机器人灵巧手 状态估计 策略学习

📋 核心要点

  1. 现有触觉传感器(如视觉触觉传感器)存在覆盖范围和带宽限制,而磁性触觉皮肤缺乏通用模型和校准方法。
  2. Sparsh-skin通过自监督学习,利用手部运动学和触觉数据,生成可用于下游任务的触觉嵌入。
  3. 实验表明,Sparsh-skin在状态估计和策略学习等任务中,相比现有方法性能提升显著,且具有更高的样本效率。

📝 摘要(中文)

本文提出Sparsh-skin,一个为灵巧机器人手的指尖、指节和手掌上分布的磁性皮肤传感器设计的预训练编码器。与受限于指尖和带宽限制的基于视觉的触觉传感器相比,磁性触觉皮肤为手部范围的覆盖提供了灵活的外形和快速的响应时间。完整的手部触觉感知对于机器人灵巧性至关重要。然而,缺乏通用模型、解释磁通量和校准方面的挑战限制了这些传感器的应用。Sparsh-skin以手部的运动学和触觉传感历史为输入,输出一个潜在的触觉嵌入,可用于任何下游任务。该编码器通过在各种使用配备Xela uSkin的Allegro手进行的未标记手-物体交互上进行自蒸馏来实现自监督。在从状态估计到策略学习的多个基准任务的实验中,我们发现预训练的Sparsh-skin表示在学习下游任务时具有样本高效性,并且与先前的工作相比,任务性能提高了41%以上,与端到端学习相比提高了56%以上。

🔬 方法详解

问题定义:论文旨在解决机器人灵巧手触觉感知问题,特别是利用磁性皮肤传感器进行全手触觉感知。现有方法要么依赖视觉触觉,存在覆盖范围和带宽限制,要么缺乏针对磁性皮肤传感器的通用模型,难以解释磁通量和进行校准,限制了其应用。

核心思路:论文的核心思路是利用自监督学习,从大量未标记的手-物体交互数据中学习通用的触觉表示。通过自蒸馏,模型能够从自身的预测中学习,无需人工标注,从而降低了数据获取成本。这种方法旨在克服磁性皮肤传感器数据解释和校准的难题,并提供一种通用的触觉感知模型。

技术框架:Sparsh-skin的整体框架包括以下几个主要阶段:1) 数据采集:使用配备Xela uSkin的Allegro手进行各种手-物体交互,收集运动学和触觉数据。2) 编码器训练:使用自蒸馏方法训练编码器,将历史运动学和触觉数据映射到潜在的触觉嵌入。3) 下游任务应用:将预训练的编码器应用于各种下游任务,如状态估计和策略学习。

关键创新:论文最重要的技术创新点在于利用自监督学习,特别是自蒸馏,来训练磁性皮肤传感器的通用触觉表示。与传统的监督学习方法相比,自监督学习无需人工标注,可以利用大量的未标记数据,从而提高模型的泛化能力。此外,Sparsh-skin能够处理手部范围的触觉信息,克服了视觉触觉传感器的覆盖范围限制。

关键设计:Sparsh-skin的关键设计包括:1) 使用循环神经网络(RNN)来处理历史运动学和触觉数据,捕捉时间依赖性。2) 使用自蒸馏损失函数,鼓励编码器生成一致的触觉表示。3) 针对不同的下游任务,设计不同的解码器,将触觉嵌入映射到任务相关的输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,预训练的Sparsh-skin表示在状态估计和策略学习等多个基准任务中表现出色。与先前的工作相比,任务性能提高了41%以上,与端到端学习相比提高了56%以上。此外,Sparsh-skin在学习下游任务时具有更高的样本效率,这意味着它可以在更少的数据下达到更好的性能。

🎯 应用场景

Sparsh-skin在机器人灵巧操作领域具有广泛的应用前景,例如物体抓取、操作和装配。通过提供更准确和全面的触觉感知,它可以提高机器人的操作精度和鲁棒性,使其能够更好地适应复杂和动态的环境。此外,该技术还可以应用于虚拟现实和人机交互等领域,为用户提供更逼真的触觉反馈。

📄 摘要(原文)

We present Sparsh-skin, a pre-trained encoder for magnetic skin sensors distributed across the fingertips, phalanges, and palm of a dexterous robot hand. Magnetic tactile skins offer a flexible form factor for hand-wide coverage with fast response times, in contrast to vision-based tactile sensors that are restricted to the fingertips and limited by bandwidth. Full hand tactile perception is crucial for robot dexterity. However, a lack of general-purpose models, challenges with interpreting magnetic flux and calibration have limited the adoption of these sensors. Sparsh-skin, given a history of kinematic and tactile sensing across a hand, outputs a latent tactile embedding that can be used in any downstream task. The encoder is self-supervised via self-distillation on a variety of unlabeled hand-object interactions using an Allegro hand sensorized with Xela uSkin. In experiments across several benchmark tasks, from state estimation to policy learning, we find that pretrained Sparsh-skin representations are both sample efficient in learning downstream tasks and improve task performance by over 41% compared to prior work and over 56% compared to end-to-end learning.