Tactile-Conditioned Diffusion Policy for Force-Aware Robotic Manipulation

作者: Erik Helmut, Niklas Funk, Tim Schneider, Cristiana de Farias, Jan Peters

分类: cs.RO

发布日期: 2025-10-15

💡 一句话要点

提出FARM框架，利用触觉信息实现力感知的机器人操作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人操作 触觉感知 力控制 模仿学习 扩散模型 高维数据 力感知

📋 核心要点

现有模仿学习方法通常将视觉触觉反馈视为附加观测，忽略了对作用力的精确控制，这在处理易碎或易变形物体时存在挑战。
FARM框架通过整合高维触觉数据，推断触觉条件下的力信号，并以此定义基于力的动作空间，从而实现对作用力的精确控制。
实验表明，FARM在不同力要求的任务中均优于基线方法，验证了其利用力感知的触觉信息和基于力的控制空间的有效性。

📝 摘要（中文）

本文提出了一种力感知的机器人操作框架（FARM），该框架利用模仿学习，并整合高维触觉数据来推断触觉条件下的力信号，进而定义一个匹配的基于力的动作空间。作者使用集成了GelSight Mini视觉触觉传感器的UMI手持式夹具收集人类演示数据。为了部署学习到的策略，开发了UMI夹具的驱动版本，其几何形状与手持版本匹配。在策略rollout期间，提出的FARM扩散策略联合预测机器人姿态、抓取宽度和抓取力。在三个具有不同力要求的任务（高力、低力和动态力适应）中，FARM优于多个基线，证明了其两个关键组件的优势：利用基于力的高维触觉观测和基于力的控制空间。代码库和设计文件已开源。

🔬 方法详解

问题定义：现有机器人操作方法，特别是基于模仿学习的方法，在处理需要精确控制作用力的任务时存在不足。它们通常将触觉信息作为额外的观察，而忽略了对作用力的直接控制，导致在处理易碎或易变形物体时性能下降。因此，需要一种能够利用触觉信息，精确控制机器人作用力的操作方法。

核心思路：FARM的核心思路是将高维触觉数据与力信号关联起来，通过触觉信息推断出期望的作用力，并以此作为控制机器人的动作空间。这种方法使得机器人能够根据触觉反馈，主动调整作用力，从而更好地完成操作任务。

技术框架：FARM框架主要包含以下几个模块：1) 数据采集：使用配备触觉传感器的夹具收集人类演示数据，包括机器人姿态、抓取宽度、抓取力和触觉信息。2) 策略学习：使用扩散模型学习一个策略，该策略能够根据触觉信息预测机器人姿态、抓取宽度和抓取力。3) 策略部署：使用驱动版本的夹具执行学习到的策略，根据触觉反馈调整机器人的动作。

关键创新：FARM的关键创新在于：1) 提出了一个基于力的动作空间，使得机器人能够直接控制作用力。2) 利用扩散模型学习触觉条件下的力信号，从而实现对作用力的精确控制。3) 将高维触觉数据与力信号关联起来，使得机器人能够根据触觉反馈调整作用力。

关键设计：在数据采集方面，使用了配备GelSight Mini视觉触觉传感器的UMI手持式夹具。在策略学习方面，使用了扩散模型，该模型能够学习高维数据的分布，并生成新的数据。在损失函数方面，使用了均方误差损失函数，用于衡量预测值和真实值之间的差异。在网络结构方面，使用了Transformer网络，用于处理高维触觉数据。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FARM在三个具有不同力要求的任务（高力、低力和动态力适应）中均优于多个基线方法。例如，在低力任务中，FARM能够更精确地控制作用力，从而避免损坏物体。在高力任务中，FARM能够更稳定地抓取物体，从而避免滑落。这些结果验证了FARM框架的有效性。

🎯 应用场景

FARM框架在需要精确控制作用力的机器人操作任务中具有广泛的应用前景，例如：易碎物品的抓取和放置、柔性物体的操作、医疗手术等。该研究有助于提高机器人的操作精度和鲁棒性，使其能够更好地适应复杂和动态的环境。

📄 摘要（原文）

Contact-rich manipulation depends on applying the correct grasp forces throughout the manipulation task, especially when handling fragile or deformable objects. Most existing imitation learning approaches often treat visuotactile feedback only as an additional observation, leaving applied forces as an uncontrolled consequence of gripper commands. In this work, we present Force-Aware Robotic Manipulation (FARM), an imitation learning framework that integrates high-dimensional tactile data to infer tactile-conditioned force signals, which in turn define a matching force-based action space. We collect human demonstrations using a modified version of the handheld Universal Manipulation Interface (UMI) gripper that integrates a GelSight Mini visual tactile sensor. For deploying the learned policies, we developed an actuated variant of the UMI gripper with geometry matching our handheld version. During policy rollouts, the proposed FARM diffusion policy jointly predicts robot pose, grip width, and grip force. FARM outperforms several baselines across three tasks with distinct force requirements -- high-force, low-force, and dynamic force adaptation -- demonstrating the advantages of its two key components: leveraging force-grounded, high-dimensional tactile observations and a force-based control space. The codebase and design files are open-sourced and available at https://tactile-farm.github.io .

Tactile-Conditioned Diffusion Policy for Force-Aware Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理