Pick-and-place Manipulation Across Grippers Without Retraining: A Learning-optimization Diffusion Policy Approach

作者: Xiangtong Yao, Yirui Zhou, Yuan Meng, Liangyu Dong, Lin Hong, Zitao Zhang, Zhenshan Bing, Kai Huang, Fuchun Sun, Alois Knoll

分类: cs.RO

发布日期: 2025-02-21

备注: Video and code are available at https://github.com/yaoxt3/GADP

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于学习-优化的扩散策略，实现机器人跨gripper的零样本抓取放置操作。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人抓取 扩散模型 模仿学习 零样本迁移 约束优化 gripper自适应 轨迹优化

📋 核心要点

现有机器人抓取放置策略通常需要训练和推理使用一致的gripper配置，更换gripper需要大量重新训练或微调成本。
论文提出一种混合学习-优化框架的扩散策略，通过约束去噪过程，使轨迹适应新gripper的物理特性，实现零样本迁移。
实验结果表明，该方法在多种gripper配置下实现了93.3%的平均任务成功率，显著优于扩散策略基线，并支持较大的工具中心点和夹爪宽度变化。

📝 摘要（中文）

本文提出了一种基于扩散的混合学习-优化框架策略，旨在解决机器人抓取放置任务中，策略对gripper配置依赖的问题。该方法能够在无需针对新gripper进行额外数据收集和重新训练的情况下，实现对新gripper的零样本自适应。在训练阶段，策略通过模仿学习从使用基础gripper收集的演示数据中学习操作原语。在推理阶段，采用基于扩散的优化策略动态地执行运动学和安全约束，确保生成的轨迹与未见过的gripper的物理特性对齐。通过约束去噪过程，轨迹能够适应gripper特定的参数（如工具中心点偏移、夹爪宽度），同时保持避障和任务可行性。在Franka Panda机器人上，对六种gripper配置进行了验证，包括3D打印指尖、柔性硅胶gripper和Robotiq 2F-85 gripper。实验结果表明，该方法在不同gripper上的平均任务成功率为93.3%，而扩散策略基线的成功率仅为23.3-26.7%，支持16-23.5厘米的工具中心点变化和7.5-11.5厘米的夹爪宽度。该方法在保持模仿学习样本效率的同时，实现了鲁棒的跨gripper操作，无需针对特定gripper进行重新训练。

🔬 方法详解

问题定义：现有机器人抓取放置策略对gripper的依赖性强，更换gripper后需要重新训练或微调，成本高昂，尤其是在模仿学习方法中。论文旨在解决在不重新训练的情况下，如何使机器人策略能够适应不同的gripper配置，实现零样本迁移的问题。

核心思路：论文的核心思路是将学习和优化相结合。通过模仿学习从少量数据中学习通用的操作原语，然后利用扩散模型在推理时进行优化，以满足新gripper的运动学和安全约束。这种混合方法既能保证样本效率，又能实现对新gripper的自适应。

技术框架：整体框架包含训练和推理两个阶段。训练阶段，使用基础gripper收集的演示数据训练一个扩散策略，学习通用的操作原语。推理阶段，首先使用训练好的扩散策略生成初始轨迹，然后通过一个约束去噪过程对轨迹进行优化，使其满足新gripper的运动学和安全约束。该过程迭代进行，直到轨迹收敛或达到最大迭代次数。

关键创新：最重要的技术创新点是利用约束扩散来实现轨迹的优化和自适应。传统的扩散模型通常用于生成新的样本，而本文将其用于优化已有的轨迹，使其满足特定的约束条件。这种方法能够有效地利用扩散模型的生成能力，同时保证轨迹的物理可行性。

关键设计：约束去噪过程是关键的设计。该过程通过在扩散模型的去噪步骤中引入约束项，来保证生成的轨迹满足gripper的运动学约束（如工具中心点偏移、夹爪宽度）和安全约束（如避障）。具体来说，约束项被添加到扩散模型的损失函数中，并在每次迭代中更新轨迹，使其逐渐满足这些约束。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在六种不同的gripper配置下实现了93.3%的平均任务成功率，显著优于扩散策略基线（23.3-26.7%）。该方法能够有效处理16-23.5厘米的工具中心点变化和7.5-11.5厘米的夹爪宽度变化，证明了其在跨gripper操作上的鲁棒性和泛化能力。

🎯 应用场景

该研究成果可广泛应用于自动化生产线、物流分拣、家庭服务机器人等领域。通过该方法，机器人能够快速适应不同的抓取对象和工作环境，提高生产效率和灵活性。未来，该技术有望进一步扩展到更复杂的机器人操作任务中，例如装配、维修等。

📄 摘要（原文）

Current robotic pick-and-place policies typically require consistent gripper configurations across training and inference. This constraint imposes high retraining or fine-tuning costs, especially for imitation learning-based approaches, when adapting to new end-effectors. To mitigate this issue, we present a diffusion-based policy with a hybrid learning-optimization framework, enabling zero-shot adaptation to novel grippers without additional data collection for retraining policy. During training, the policy learns manipulation primitives from demonstrations collected using a base gripper. At inference, a diffusion-based optimization strategy dynamically enforces kinematic and safety constraints, ensuring that generated trajectories align with the physical properties of unseen grippers. This is achieved through a constrained denoising procedure that adapts trajectories to gripper-specific parameters (e.g., tool-center-point offsets, jaw widths) while preserving collision avoidance and task feasibility. We validate our method on a Franka Panda robot across six gripper configurations, including 3D-printed fingertips, flexible silicone gripper, and Robotiq 2F-85 gripper. Our approach achieves a 93.3% average task success rate across grippers (vs. 23.3-26.7% for diffusion policy baselines), supporting tool-center-point variations of 16-23.5 cm and jaw widths of 7.5-11.5 cm. The results demonstrate that constrained diffusion enables robust cross-gripper manipulation while maintaining the sample efficiency of imitation learning, eliminating the need for gripper-specific retraining. Video and code are available at https://github.com/yaoxt3/GADP.

Pick-and-place Manipulation Across Grippers Without Retraining: A Learning-optimization Diffusion Policy Approach

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理