Learning Precise, Contact-Rich Manipulation through Uncalibrated Tactile Skins

📄 arXiv: 2410.17246v2 📥 PDF

作者: Venkatesh Pattabiraman, Yifeng Cao, Siddhant Haldar, Lerrel Pinto, Raunaq Bhirangi

分类: cs.RO, cs.AI

发布日期: 2024-10-22 (更新: 2024-10-26)


💡 一句话要点

提出Visuo-Skin框架,利用非校准触觉皮肤提升机器人接触密集型操作的精确性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 触觉传感 视觉触觉融合 Transformer 强化学习

📋 核心要点

  1. 视觉运动策略学习在接触密集型任务中面临挑战,因为视觉难以准确感知物理交互。
  2. Visuo-Skin (ViSk)框架利用磁性皮肤传感器,结合Transformer策略,将触觉数据作为视觉信息的补充。
  3. 实验表明,ViSk在真实世界的复杂任务中显著优于仅视觉和光学触觉传感方法,平均提升27.5%。

📝 摘要(中文)

尽管基于视觉运动策略学习在机器人操作方面取得了进展,但由于视觉在推理物理交互方面的局限性,精确执行接触密集型任务仍然具有挑战性。为了解决这个问题,最近的工作试图将触觉传感集成到策略学习中。然而,许多现有方法依赖于光学触觉传感器,这些传感器要么仅限于识别任务,要么需要复杂的降维步骤才能进行策略学习。在这项工作中,我们探索使用磁性皮肤传感器进行策略学习,这种传感器本质上是低维的、高度敏感的,并且可以低成本地与机器人平台集成。为了有效地利用这些传感器,我们提出了Visuo-Skin (ViSk)框架,这是一种简单的方法,它使用基于Transformer的策略,并将皮肤传感器数据视为视觉信息之外的额外tokens。在涉及信用卡刷卡、插头插入、USB插入和书架检索四个复杂的真实世界任务中进行评估,ViSk显著优于仅基于视觉和基于光学触觉传感的策略。进一步的分析表明,结合触觉和视觉模态可以提高策略性能和空间泛化能力,在各项任务中平均提高了27.5%。

🔬 方法详解

问题定义:现有机器人操作方法在接触密集型任务中,依赖视觉信息进行策略学习,但视觉在精确感知物理交互方面存在局限性。光学触觉传感器虽然可以提供触觉信息,但通常需要复杂的降维处理,或者仅限于识别任务,难以直接用于策略学习。因此,如何有效地利用触觉信息,提升机器人接触密集型操作的精确性是一个关键问题。

核心思路:论文的核心思路是将低维、高灵敏度的磁性皮肤传感器集成到机器人系统中,并设计一个简单有效的框架Visuo-Skin (ViSk),将触觉数据与视觉数据融合,共同用于策略学习。通过将触觉数据作为Transformer模型的额外tokens,使得模型能够同时利用视觉和触觉信息进行决策。

技术框架:Visuo-Skin (ViSk)框架的整体架构包含以下几个主要部分:1) 机器人平台,配备磁性皮肤传感器;2) 视觉传感器,用于获取环境图像;3) 基于Transformer的策略网络,该网络接收视觉图像和触觉传感器数据作为输入;4) 强化学习算法,用于训练策略网络。整个流程是:机器人通过视觉和触觉传感器获取环境信息,策略网络根据这些信息输出动作指令,机器人执行动作,环境发生变化,机器人再次获取环境信息,如此循环,通过强化学习不断优化策略网络。

关键创新:该论文最重要的技术创新点在于将磁性皮肤传感器与Transformer模型相结合,提出了一种简单有效的触觉-视觉融合方法。与传统的光学触觉传感器相比,磁性皮肤传感器具有低维、高灵敏度的特点,可以直接用于策略学习,无需复杂的降维处理。同时,将触觉数据作为Transformer模型的额外tokens,使得模型能够自然地融合视觉和触觉信息,从而提高策略的性能。

关键设计:在ViSk框架中,视觉信息和触觉信息被分别编码成tokens,然后输入到Transformer模型中。Transformer模型采用标准的encoder-decoder结构,encoder负责提取视觉和触觉信息的特征,decoder负责生成动作指令。损失函数采用标准的强化学习损失函数,例如PPO或SAC。具体的网络结构和参数设置需要根据具体的任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Visuo-Skin (ViSk)框架在信用卡刷卡、插头插入、USB插入和书架检索四个真实世界的复杂任务中,显著优于仅基于视觉和基于光学触觉传感的策略。ViSk在各项任务中平均提高了27.5%的性能,证明了触觉信息在接触密集型操作中的重要性,以及ViSk框架的有效性。

🎯 应用场景

该研究成果可应用于各种需要精确接触控制的机器人操作任务,例如装配、抓取、医疗手术等。通过结合视觉和触觉信息,机器人可以更好地感知环境,从而更安全、更有效地完成任务。未来,该技术有望推动机器人自动化在更广泛领域的应用,例如智能制造、医疗健康、家庭服务等。

📄 摘要(原文)

While visuomotor policy learning has advanced robotic manipulation, precisely executing contact-rich tasks remains challenging due to the limitations of vision in reasoning about physical interactions. To address this, recent work has sought to integrate tactile sensing into policy learning. However, many existing approaches rely on optical tactile sensors that are either restricted to recognition tasks or require complex dimensionality reduction steps for policy learning. In this work, we explore learning policies with magnetic skin sensors, which are inherently low-dimensional, highly sensitive, and inexpensive to integrate with robotic platforms. To leverage these sensors effectively, we present the Visuo-Skin (ViSk) framework, a simple approach that uses a transformer-based policy and treats skin sensor data as additional tokens alongside visual information. Evaluated on four complex real-world tasks involving credit card swiping, plug insertion, USB insertion, and bookshelf retrieval, ViSk significantly outperforms both vision-only and optical tactile sensing based policies. Further analysis reveals that combining tactile and visual modalities enhances policy performance and spatial generalization, achieving an average improvement of 27.5% across tasks. https://visuoskin.github.io/