Grasp Synthesis Matching From Rigid To Soft Robot Grippers Using Conditional Flow Matching

作者: Tanisha Parulekar, Ge Shi, Josh Pinskier, David Howard, Jen Jen Chung

分类: cs.RO

发布日期: 2026-02-19

💡 一句话要点

提出基于条件流匹配的抓取姿态迁移方法，实现刚性到柔性夹爪的抓取合成。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 柔性机器人 抓取合成 条件流匹配 刚柔迁移 机器人抓取

📋 核心要点

现有抓取合成方法主要针对刚性夹爪设计，难以直接应用于柔性夹爪，无法有效捕捉柔性夹爪的顺应性。
利用条件流匹配（CFM）学习刚性夹爪到柔性夹爪抓取姿态的映射，以物体几何信息为条件，实现抓取策略迁移。
实验表明，该方法在已见和未见物体上的抓取成功率均显著高于基线方法，尤其在圆柱形和球形物体上提升明显。

📝 摘要（中文）

刚性和柔性夹爪的抓取合成之间存在表示差异。现有的抓取合成方法，如Anygrasp，主要为刚性平行夹爪设计，直接应用于柔性夹爪时，无法捕捉其独特的柔顺特性，导致模型需要大量数据且精度不高。为解决此问题，本文提出一种新框架，将刚性夹爪的抓取姿态映射到柔性Fin-ray夹爪。利用生成模型条件流匹配（CFM）学习这种复杂变换。该方法包含一个数据收集流程，用于生成配对的刚性-柔性抓取姿态。一个U-Net自编码器以深度图像中的物体几何信息为条件，驱动CFM模型学习从初始Anygrasp姿态到稳定Fin-ray夹爪姿态的连续映射。在7自由度机器人上的验证表明，与基线刚性姿态相比，CFM生成的姿态在已见和未见物体上的整体成功率更高（分别为34%和46%，而基线分别为6%和25%）。该模型在圆柱形（已见和未见物体的成功率分别为50%和100%）和球形物体（已见和未见物体的成功率分别为25%和31%）上表现出显著改进，并成功泛化到未见物体。这项工作表明，CFM是一种数据高效且有效的抓取策略迁移方法，为其他柔性机器人系统提供了一种可扩展的方法。

🔬 方法详解

问题定义：现有抓取合成方法，如Anygrasp，主要针对刚性平行夹爪设计，直接应用于柔性夹爪时，由于忽略了柔性夹爪的顺应性，导致抓取性能下降，且需要大量数据进行训练才能获得较好的效果。因此，如何有效地将刚性夹爪的抓取策略迁移到柔性夹爪，是本文要解决的核心问题。

核心思路：本文的核心思路是利用条件流匹配（CFM）学习一个从刚性夹爪抓取姿态到柔性夹爪抓取姿态的映射函数。通过将物体几何信息作为条件输入到CFM模型中，使得模型能够根据物体的形状自适应地调整抓取姿态，从而实现更稳定的抓取。这种方法避免了直接对柔性夹爪进行建模的复杂性，而是通过学习映射关系来实现抓取策略的迁移。

技术框架：该方法的技术框架主要包括以下几个阶段：1) 数据收集：构建一个数据收集流程，生成配对的刚性-柔性抓取姿态数据。2) 模型训练：使用U-Net自编码器提取深度图像中的物体几何特征，并将这些特征作为条件输入到CFM模型中。CFM模型学习从初始Anygrasp姿态到稳定Fin-ray夹爪姿态的连续映射。3) 抓取执行：在机器人上执行CFM模型生成的抓取姿态，并评估抓取成功率。

关键创新：该论文的关键创新在于使用条件流匹配（CFM）来学习刚性夹爪到柔性夹爪的抓取姿态映射。与传统的直接对柔性夹爪进行建模的方法相比，CFM方法更加数据高效，并且能够更好地捕捉柔性夹爪的顺应性。此外，使用U-Net自编码器提取物体几何特征作为条件输入，使得模型能够根据物体的形状自适应地调整抓取姿态。

关键设计：在数据收集方面，需要设计合理的实验流程来生成配对的刚性-柔性抓取姿态数据。在模型训练方面，U-Net自编码器的结构和参数需要仔细调整，以确保能够有效地提取物体几何特征。CFM模型的损失函数需要设计成能够鼓励模型学习到稳定的抓取姿态。具体的网络结构和参数设置在论文中没有详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在已见和未见物体上的抓取成功率均显著高于基线方法。在已见物体上，CFM生成的姿态的成功率为34%，而基线刚性姿态的成功率仅为6%。在未见物体上，CFM生成的姿态的成功率为46%，而基线刚性姿态的成功率为25%。尤其是在圆柱形和球形物体上，该方法取得了显著的提升，在未见圆柱形物体上的抓取成功率达到了100%。

🎯 应用场景

该研究成果可应用于各种需要柔性抓取的场景，例如食品加工、医疗手术、精密装配等。通过将现有的刚性夹爪抓取策略迁移到柔性夹爪，可以降低柔性机器人应用的开发成本和难度，提高抓取的稳定性和适应性。未来，该方法有望推广到其他类型的柔性机器人系统，实现更广泛的应用。

📄 摘要（原文）

A representation gap exists between grasp synthesis for rigid and soft grippers. Anygrasp [1] and many other grasp synthesis methods are designed for rigid parallel grippers, and adapting them to soft grippers often fails to capture their unique compliant behaviors, resulting in data-intensive and inaccurate models. To bridge this gap, this paper proposes a novel framework to map grasp poses from a rigid gripper model to a soft Fin-ray gripper. We utilize Conditional Flow Matching (CFM), a generative model, to learn this complex transformation. Our methodology includes a data collection pipeline to generate paired rigid-soft grasp poses. A U-Net autoencoder conditions the CFM model on the object's geometry from a depth image, allowing it to learn a continuous mapping from an initial Anygrasp pose to a stable Fin-ray gripper pose. We validate our approach on a 7-DOF robot, demonstrating that our CFM-generated poses achieve a higher overall success rate for seen and unseen objects (34% and 46% respectively) compared to the baseline rigid poses (6% and 25% respectively) when executed by the soft gripper. The model shows significant improvements, particularly for cylindrical (50% and 100% success for seen and unseen objects) and spherical objects (25% and 31% success for seen and unseen objects), and successfully generalizes to unseen objects. This work presents CFM as a data-efficient and effective method for transferring grasp strategies, offering a scalable methodology for other soft robotic systems.

Grasp Synthesis Matching From Rigid To Soft Robot Grippers Using Conditional Flow Matching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理