FG-CLTP: Fine-Grained Contrastive Language Tactile Pretraining for Robotic Manipulation

📄 arXiv: 2603.10871v1 📥 PDF

作者: Wenxuan Ma, Chaofan Zhang, Yinghao Cai, Guocai Yao, Shaowei Cui, Shuo Wang

分类: cs.RO

发布日期: 2026-03-11

备注: 9 pages, 6 figures


💡 一句话要点

提出FG-CLTP以解决机器人精细操作中的触觉感知不足问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 触觉感知 机器人操作 多模态融合 对比学习 数据集构建

📋 核心要点

  1. 现有触觉表示方法主要依赖定性描述,忽视了定量接触状态,限制了机器人在精细操作中的表现。
  2. 本文提出FG-CLTP框架,通过构建新数据集和离散化数值标记机制,实现定量-语义对齐,提升触觉感知能力。
  3. FG-CLTP模型在分类准确率上达到95.9%,回归误差减少52.6%,在接触丰富的操作任务中显著优于强基线。

📝 摘要(中文)

近年来,将触觉传感器与视觉-语言-动作(VLA)模型结合的进展展现了其在机器人感知中的变革潜力。然而,现有的触觉表示主要依赖定性描述(如纹理),忽视了诸如力大小、接触几何形状和主轴方向等定量接触状态,这些对于精细操作至关重要。为此,本文提出FG-CLTP,一个精细对比语言触觉预训练框架。我们首先引入一个包含超过10万个触觉3D点云-语言对的新数据集,明确捕捉传感器视角下的多维接触状态。然后,我们实现了一种离散化数值标记机制,以实现定量-语义对齐,有效地将显式物理度量注入多模态特征空间。实验结果表明,FG-CLTP模型在分类准确率上达到95.9%,回归误差(MAE)减少52.6%。

🔬 方法详解

问题定义:本文旨在解决现有触觉感知方法中对定量接触状态的忽视,导致机器人在精细操作中的表现不足。现有方法主要依赖定性描述,无法充分利用触觉信息。

核心思路:FG-CLTP框架通过引入新的数据集和离散化数值标记机制,旨在实现触觉信息的定量-语义对齐,从而提升机器人对接触状态的理解和操作能力。

技术框架:整体架构包括数据集构建、数值标记机制和模型训练三个主要模块。首先,构建包含触觉3D点云与语言对的数据集;其次,实施离散化数值标记以实现定量与语义的结合;最后,训练FG-CLTP模型以优化触觉感知。

关键创新:最重要的技术创新在于引入了一个新的数据集和离散化数值标记机制,使得触觉信息能够以定量方式融入多模态特征空间,显著提升了模型的表现。

关键设计:在模型设计中,采用了特定的损失函数以优化分类和回归任务,网络结构则结合了多模态输入,确保触觉与语言信息的有效融合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FG-CLTP模型在分类任务中达到了95.9%的准确率,相较于现有最先进方法,回归误差(MAE)减少了52.6%。此外,模型在3D点云表示的基础上,建立了传感器无关的基础,模拟与真实之间的差距仅为3.5%。

🎯 应用场景

该研究的潜在应用领域包括机器人抓取、装配和其他需要精细操作的任务。通过提升机器人对触觉信息的理解能力,FG-CLTP框架能够在复杂环境中实现更高效的操作,未来可能在工业自动化、服务机器人等领域产生深远影响。

📄 摘要(原文)

Recent advancements in integrating tactile sensing into vision-language-action (VLA) models have demonstrated transformative potential for robotic perception. However, existing tactile representations predominantly rely on qualitative descriptors (e.g., texture), neglecting quantitative contact states such as force magnitude, contact geometry, and principal axis orientation, which are indispensable for fine-grained manipulation. To bridge this gap, we propose FG-CLTP, a fine-grained contrastive language tactile pretraining framework. We first introduce a novel dataset comprising over 100k tactile 3D point cloud-language pairs that explicitly capture multidimensional contact states from the sensor's perspective. We then implement a discretized numerical tokenization mechanism to achieve quantitative-semantic alignment, effectively injecting explicit physical metrics into the multimodal feature space. The proposed FG-CLTP model yields a 95.9% classification accuracy and reduces the regression error (MAE) by 52.6% compared to state-of-the-art methods. Furthermore, the integration of 3D point cloud representations establishes a sensor-agnostic foundation with a minimal sim-to-real gap of 3.5%. Building upon this fine-grained representation, we develop a 3D tactile-language-action (3D-TLA) architecture driven by a flow matching policy to enable multimodal reasoning and control. Extensive experiments demonstrate that our framework significantly outperforms strong baselines in contact-rich manipulation tasks, providing a robust and generalizable foundation for tactile-language-action models.