Pick-and-place Manipulation Across Grippers Without Retraining: A Learning-optimization Diffusion Policy Approach
作者: Xiangtong Yao, Yirui Zhou, Yuan Meng, Liangyu Dong, Lin Hong, Zitao Zhang, Zhenshan Bing, Kai Huang, Fuchun Sun, Alois Knoll
分类: cs.RO
发布日期: 2025-02-21
备注: Video and code are available at https://github.com/yaoxt3/GADP
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于学习-优化的扩散策略,实现机器人跨gripper的零样本抓取放置操作。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人抓取 扩散模型 模仿学习 零样本迁移 约束优化 gripper自适应 轨迹优化
📋 核心要点
- 现有机器人抓取放置策略通常需要训练和推理使用一致的gripper配置,更换gripper需要大量重新训练或微调成本。
- 论文提出一种混合学习-优化框架的扩散策略,通过约束去噪过程,使轨迹适应新gripper的物理特性,实现零样本迁移。
- 实验结果表明,该方法在多种gripper配置下实现了93.3%的平均任务成功率,显著优于扩散策略基线,并支持较大的工具中心点和夹爪宽度变化。
📝 摘要(中文)
本文提出了一种基于扩散的混合学习-优化框架策略,旨在解决机器人抓取放置任务中,策略对gripper配置依赖的问题。该方法能够在无需针对新gripper进行额外数据收集和重新训练的情况下,实现对新gripper的零样本自适应。在训练阶段,策略通过模仿学习从使用基础gripper收集的演示数据中学习操作原语。在推理阶段,采用基于扩散的优化策略动态地执行运动学和安全约束,确保生成的轨迹与未见过的gripper的物理特性对齐。通过约束去噪过程,轨迹能够适应gripper特定的参数(如工具中心点偏移、夹爪宽度),同时保持避障和任务可行性。在Franka Panda机器人上,对六种gripper配置进行了验证,包括3D打印指尖、柔性硅胶gripper和Robotiq 2F-85 gripper。实验结果表明,该方法在不同gripper上的平均任务成功率为93.3%,而扩散策略基线的成功率仅为23.3-26.7%,支持16-23.5厘米的工具中心点变化和7.5-11.5厘米的夹爪宽度。该方法在保持模仿学习样本效率的同时,实现了鲁棒的跨gripper操作,无需针对特定gripper进行重新训练。
🔬 方法详解
问题定义:现有机器人抓取放置策略对gripper的依赖性强,更换gripper后需要重新训练或微调,成本高昂,尤其是在模仿学习方法中。论文旨在解决在不重新训练的情况下,如何使机器人策略能够适应不同的gripper配置,实现零样本迁移的问题。
核心思路:论文的核心思路是将学习和优化相结合。通过模仿学习从少量数据中学习通用的操作原语,然后利用扩散模型在推理时进行优化,以满足新gripper的运动学和安全约束。这种混合方法既能保证样本效率,又能实现对新gripper的自适应。
技术框架:整体框架包含训练和推理两个阶段。训练阶段,使用基础gripper收集的演示数据训练一个扩散策略,学习通用的操作原语。推理阶段,首先使用训练好的扩散策略生成初始轨迹,然后通过一个约束去噪过程对轨迹进行优化,使其满足新gripper的运动学和安全约束。该过程迭代进行,直到轨迹收敛或达到最大迭代次数。
关键创新:最重要的技术创新点是利用约束扩散来实现轨迹的优化和自适应。传统的扩散模型通常用于生成新的样本,而本文将其用于优化已有的轨迹,使其满足特定的约束条件。这种方法能够有效地利用扩散模型的生成能力,同时保证轨迹的物理可行性。
关键设计:约束去噪过程是关键的设计。该过程通过在扩散模型的去噪步骤中引入约束项,来保证生成的轨迹满足gripper的运动学约束(如工具中心点偏移、夹爪宽度)和安全约束(如避障)。具体来说,约束项被添加到扩散模型的损失函数中,并在每次迭代中更新轨迹,使其逐渐满足这些约束。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在六种不同的gripper配置下实现了93.3%的平均任务成功率,显著优于扩散策略基线(23.3-26.7%)。该方法能够有效处理16-23.5厘米的工具中心点变化和7.5-11.5厘米的夹爪宽度变化,证明了其在跨gripper操作上的鲁棒性和泛化能力。
🎯 应用场景
该研究成果可广泛应用于自动化生产线、物流分拣、家庭服务机器人等领域。通过该方法,机器人能够快速适应不同的抓取对象和工作环境,提高生产效率和灵活性。未来,该技术有望进一步扩展到更复杂的机器人操作任务中,例如装配、维修等。
📄 摘要(原文)
Current robotic pick-and-place policies typically require consistent gripper configurations across training and inference. This constraint imposes high retraining or fine-tuning costs, especially for imitation learning-based approaches, when adapting to new end-effectors. To mitigate this issue, we present a diffusion-based policy with a hybrid learning-optimization framework, enabling zero-shot adaptation to novel grippers without additional data collection for retraining policy. During training, the policy learns manipulation primitives from demonstrations collected using a base gripper. At inference, a diffusion-based optimization strategy dynamically enforces kinematic and safety constraints, ensuring that generated trajectories align with the physical properties of unseen grippers. This is achieved through a constrained denoising procedure that adapts trajectories to gripper-specific parameters (e.g., tool-center-point offsets, jaw widths) while preserving collision avoidance and task feasibility. We validate our method on a Franka Panda robot across six gripper configurations, including 3D-printed fingertips, flexible silicone gripper, and Robotiq 2F-85 gripper. Our approach achieves a 93.3% average task success rate across grippers (vs. 23.3-26.7% for diffusion policy baselines), supporting tool-center-point variations of 16-23.5 cm and jaw widths of 7.5-11.5 cm. The results demonstrate that constrained diffusion enables robust cross-gripper manipulation while maintaining the sample efficiency of imitation learning, eliminating the need for gripper-specific retraining. Video and code are available at https://github.com/yaoxt3/GADP.