Demonstrating the Octopi-1.5 Visual-Tactile-Language Model

作者: Samson Yu, Kelvin Lin, Harold Soh

分类: cs.RO, cs.AI

发布日期: 2025-07-14

备注: Published at R:SS 2025

🔗 代码/项目: GITHUB

💡 一句话要点

Octopi-1.5：一种支持多触觉输入和RAG的视觉-触觉-语言模型，用于触觉推理任务。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-触觉-语言模型 触觉推理 检索增强生成 多触觉信号处理 机器人灵巧操作

📋 核心要点

现有触觉模型在处理复杂场景，特别是多物体部件交互时存在局限性，难以有效利用常识知识进行推理。
Octopi-1.5通过引入多触觉信号处理能力和检索增强生成（RAG）模块，提升了模型在触觉推理任务中的性能。
通过手持触觉界面TMI，用户可以方便地与Octopi-1.5进行交互，演示了其在物体识别和处理建议方面的能力。

📝 摘要（中文）

本演示将展示我们最新的视觉-触觉-语言模型Octopi-1.5，该模型建立在最新的触觉基础模型研究之上。与之前的版本相比，Octopi-1.5引入了处理来自多个物体部分的触觉信号的能力，并采用了一个简单的检索增强生成（RAG）模块，以提高任务性能并可能实现即时学习新物体。该系统可以通过一种新的手持触觉界面TMI进行实时体验，该界面配备了GelSight和TAC-02触觉传感器。这种便捷且易于访问的设置允许用户与Octopi-1.5交互，而无需机器人。在演示过程中，我们将展示Octopi-1.5通过利用触觉输入和常识知识来解决触觉推理任务。例如，在猜谜游戏中，Octopi-1.5将识别正在抓取的物体，并回应关于如何处理它的后续查询（例如，建议小心处理软水果）。我们还计划通过教它新物品来展示Octopi-1.5的RAG能力。通过实时互动，本次演示旨在突出VTLM（如Octopi-1.5）的进展和局限性，并激发人们对这个令人兴奋的领域的进一步兴趣。Octopi-1.5的代码和TMI夹具的设计文件可在https://github.com/clear-nus/octopi-1.5上找到。

🔬 方法详解

问题定义：现有视觉-触觉-语言模型在处理复杂操作任务时，面临着触觉信息利用不足和泛化能力有限的问题。尤其是在需要同时感知物体多个部位的触觉信息，并结合常识知识进行推理时，现有模型表现不佳。此外，模型难以快速适应新物体和新任务，需要大量的重新训练。

核心思路：Octopi-1.5的核心思路是增强模型对多部位触觉信息的处理能力，并引入检索增强生成（RAG）机制，从而提升模型的推理能力和泛化能力。通过RAG，模型可以动态地从外部知识库中检索相关信息，辅助决策，并实现快速学习新物体的能力。

技术框架：Octopi-1.5的整体框架包含以下几个主要模块：1) 多触觉传感器数据采集模块，用于从GelSight和TAC-02传感器获取触觉信息；2) 触觉特征提取模块，用于提取触觉数据的特征表示；3) 视觉特征提取模块（如果需要）；4) 语言模型，用于处理用户指令和生成回复；5) 检索增强生成（RAG）模块，用于从外部知识库检索相关信息，并将其融入到语言模型的生成过程中。

关键创新：Octopi-1.5的关键创新在于：1) 引入了多触觉信号处理能力，能够同时处理来自物体多个部位的触觉信息，从而更全面地理解物体的属性和状态；2) 采用了检索增强生成（RAG）模块，使得模型能够利用外部知识库中的信息，提升推理能力和泛化能力，并实现快速学习新物体的能力。

关键设计：关于关键设计，论文中提到使用了GelSight和TAC-02触觉传感器，但关于特征提取模块、语言模型和RAG模块的具体网络结构、损失函数和参数设置等技术细节，论文中没有详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

该论文主要展示了Octopi-1.5的功能，例如通过手持触觉界面TMI与模型进行交互，让模型识别抓取的物体并给出处理建议。此外，还演示了Octopi-1.5通过RAG学习新物品的能力。具体的性能数据、对比基线和提升幅度等信息，论文中没有明确给出，属于未知信息。

🎯 应用场景

Octopi-1.5具有广泛的应用前景，例如在智能制造领域，可以用于机器人灵巧操作、质量检测和装配任务。在医疗领域，可以辅助医生进行远程触诊和手术操作。在家庭服务领域，可以帮助机器人进行物体识别、抓取和整理等任务。该研究的进展将推动触觉感知技术的发展，并促进人机协作的智能化。

📄 摘要（原文）

Touch is recognized as a vital sense for humans and an equally important modality for robots, especially for dexterous manipulation, material identification, and scenarios involving visual occlusion. Building upon very recent work in touch foundation models, this demonstration will feature Octopi-1.5, our latest visual-tactile-language model. Compared to its predecessor, Octopi-1.5 introduces the ability to process tactile signals from multiple object parts and employs a simple retrieval-augmented generation (RAG) module to improve performance on tasks and potentially learn new objects on-the-fly. The system can be experienced live through a new handheld tactile-enabled interface, the TMI, equipped with GelSight and TAC-02 tactile sensors. This convenient and accessible setup allows users to interact with Octopi-1.5 without requiring a robot. During the demonstration, we will showcase Octopi-1.5 solving tactile inference tasks by leveraging tactile inputs and commonsense knowledge. For example, in a Guessing Game, Octopi-1.5 will identify objects being grasped and respond to follow-up queries about how to handle it (e.g., recommending careful handling for soft fruits). We also plan to demonstrate Octopi-1.5's RAG capabilities by teaching it new items. With live interactions, this demonstration aims to highlight both the progress and limitations of VTLMs such as Octopi-1.5 and to foster further interest in this exciting field. Code for Octopi-1.5 and design files for the TMI gripper are available at https://github.com/clear-nus/octopi-1.5.

Demonstrating the Octopi-1.5 Visual-Tactile-Language Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理