Transferable Tactile Transformers for Representation Learning Across Diverse Sensors and Tasks
作者: Jialiang Zhao, Yuxiang Ma, Lirui Wang, Edward H. Adelson
分类: cs.RO, cs.CV, cs.LG
发布日期: 2024-06-19 (更新: 2024-10-06)
备注: Accepted to 2024 Conference on Robot Learning (CoRL)
💡 一句话要点
提出可迁移触觉Transformer(T3),用于跨传感器和任务的表征学习。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 触觉感知 表征学习 Transformer 迁移学习 机器人操作 多传感器融合 预训练模型
📋 核心要点
- 现有基于相机的触觉传感器异构性强,数据集针对不同任务收集,缺乏通用表征。
- T3框架通过共享主干Transformer和特定传感器/任务的编码器/解码器,学习跨传感器和任务的共享潜在信息。
- FoTa数据集包含来自13个传感器和11个任务的300万数据点,预训练的T3在多种任务上表现出良好的迁移能力。
📝 摘要(中文)
本文提出了一种可迁移触觉Transformer(T3)框架,用于跨多种传感器和任务的触觉表征学习。T3旨在克服当前基于相机的触觉传感中存在的异构性问题,即传感器具有不同的外形尺寸,并且现有数据集是为不同的任务收集的。T3通过构建一个带有传感器特定编码器和任务特定解码器的共享主干Transformer,来捕获不同传感器-任务配对之间的共享潜在信息。T3的预训练利用了一个新的基础触觉(FoTa)数据集,该数据集由多个开源数据集聚合而成,包含来自13个传感器和11个任务的超过300万个数据点。FoTa是迄今为止触觉传感领域中最大且最多样化的数据集,并以统一的格式公开提供。实验表明,在各种传感器和任务中,使用FoTa预训练的T3在某些传感器-任务配对中实现了零样本可迁移性,可以通过少量领域特定数据进一步微调,并且其性能随网络规模的增大而提高。T3作为触觉编码器对于长时程接触丰富的操作也是有效的。亚毫米级多针电子器件插入任务的结果表明,T3的任务成功率比从头开始训练的触觉编码器训练的策略高25%,比没有触觉传感的策略高53%。数据、代码和模型检查点已在https://t3.alanz.info上开源。
🔬 方法详解
问题定义:现有基于相机的触觉传感器种类繁多,外形各异,且数据集通常是为特定任务收集的,导致模型难以泛化到新的传感器和任务上。缺乏一个通用的触觉表征学习框架,能够有效地利用不同来源的数据,并实现跨传感器和任务的知识迁移。
核心思路:T3的核心思路是利用Transformer架构强大的表征学习能力,通过构建一个共享的主干网络来学习不同传感器和任务之间的共性特征。同时,为每个传感器和任务配备特定的编码器和解码器,以处理各自的独特性。通过在大型多样化的FoTa数据集上进行预训练,T3能够学习到通用的触觉表征,从而实现跨传感器和任务的知识迁移。
技术框架:T3框架包含三个主要组成部分:传感器特定编码器、共享主干Transformer和任务特定解码器。首先,传感器特定编码器将来自不同传感器的原始数据转换为统一的特征向量。然后,这些特征向量被输入到共享主干Transformer中,Transformer负责学习不同传感器和任务之间的共享潜在信息。最后,任务特定解码器将Transformer的输出解码为特定任务所需的输出。整个框架采用端到端的方式进行训练。
关键创新:T3的关键创新在于其可迁移的Transformer架构和大规模多样化的FoTa数据集。可迁移的Transformer架构能够有效地学习跨传感器和任务的共享表征,从而实现知识迁移。FoTa数据集是迄今为止触觉传感领域中最大且最多样化的数据集,为T3的预训练提供了充足的数据支持。与现有方法相比,T3能够更好地利用不同来源的数据,并实现更强的泛化能力。
关键设计:T3的关键设计包括:1) 使用Transformer作为共享主干网络,以学习长距离依赖关系;2) 设计传感器特定编码器和任务特定解码器,以处理各自的独特性;3) 使用对比学习损失函数,以鼓励学习到的表征具有区分性;4) 在FoTa数据集上进行预训练,以学习通用的触觉表征。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用FoTa预训练的T3在某些传感器-任务配对中实现了零样本可迁移性。在亚毫米级多针电子器件插入任务中,T3的任务成功率比从头开始训练的触觉编码器训练的策略高25%,比没有触觉传感的策略高53%。这些结果表明,T3能够有效地学习通用的触觉表征,并实现跨传感器和任务的知识迁移。
🎯 应用场景
T3框架可应用于各种需要触觉感知的机器人应用中,例如灵巧操作、物体识别、表面质地感知等。通过利用预训练的T3模型,可以大大减少在特定任务上训练模型所需的数据量,从而加速机器人应用的开发和部署。此外,T3还可以用于开发更智能、更灵活的机器人,使其能够更好地适应不同的环境和任务。
📄 摘要(原文)
This paper presents T3: Transferable Tactile Transformers, a framework for tactile representation learning that scales across multi-sensors and multi-tasks. T3 is designed to overcome the contemporary issue that camera-based tactile sensing is extremely heterogeneous, i.e. sensors are built into different form factors, and existing datasets were collected for disparate tasks. T3 captures the shared latent information across different sensor-task pairings by constructing a shared trunk transformer with sensor-specific encoders and task-specific decoders. The pre-training of T3 utilizes a novel Foundation Tactile (FoTa) dataset, which is aggregated from several open-sourced datasets and it contains over 3 million data points gathered from 13 sensors and 11 tasks. FoTa is the largest and most diverse dataset in tactile sensing to date and it is made publicly available in a unified format. Across various sensors and tasks, experiments show that T3 pre-trained with FoTa achieved zero-shot transferability in certain sensor-task pairings, can be further fine-tuned with small amounts of domain-specific data, and its performance scales with bigger network sizes. T3 is also effective as a tactile encoder for long horizon contact-rich manipulation. Results from sub-millimeter multi-pin electronics insertion tasks show that T3 achieved a task success rate 25% higher than that of policies trained with tactile encoders trained from scratch, or 53% higher than without tactile sensing. Data, code, and model checkpoints are open-sourced at https://t3.alanz.info