GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion
作者: Enda Xiang, Haoxiang Ma, Xinzhu Ma, Zicheng Liu, Di Huang
分类: cs.RO, cs.CV
发布日期: 2026-02-26
备注: Accepted to CVPR 2026
💡 一句话要点
GraspLDP:通过潜在扩散模型提升抓取策略的泛化性和精确性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人抓取 模仿学习 扩散模型 策略学习 抓取先验
📋 核心要点
- 现有模仿学习抓取策略存在精度低、空间泛化性差和物体泛化性不足的问题。
- 论文提出GraspLDP,将抓取先验知识融入扩散策略框架,指导动作解码,确保轨迹符合抓取配置。
- 通过自监督重建目标嵌入抓取性先验,实验表明该方法显著优于基线,具备强大的动态抓取能力。
📝 摘要(中文)
本文致力于提升模仿学习得到的操纵策略的抓取精度和泛化能力。基于扩散模型的策略学习方法已成为机器人操纵任务的主流方法。由于抓取是操纵中的关键子任务,因此模仿学习策略执行精确且可泛化抓取的能力值得特别关注。现有的抓取模仿学习技术通常存在抓取执行不精确、空间泛化能力有限以及物体泛化能力差等问题。为了应对这些挑战,我们将抓取先验知识融入到扩散策略框架中。具体而言,我们采用潜在扩散策略来指导动作块解码,并使用抓取姿态先验,确保生成的运动轨迹紧密贴合可行的抓取配置。此外,我们在扩散过程中引入了自监督重建目标,以嵌入抓取性先验:在每个反向扩散步骤中,我们从中间表示重建手腕相机图像,并反向投影抓取性。仿真和真实机器人实验均表明,我们的方法显著优于基线方法,并表现出强大的动态抓取能力。
🔬 方法详解
问题定义:现有基于模仿学习的机器人抓取策略存在三个主要问题:一是抓取执行精度不高,导致抓取失败;二是空间泛化能力有限,难以适应新的场景;三是对未见过的物体的泛化能力较差。这些问题限制了机器人抓取策略在实际应用中的可靠性和通用性。
核心思路:论文的核心思路是将抓取先验知识融入到扩散策略学习框架中。通过引入抓取姿态先验,引导动作轨迹的生成,使其更符合可行的抓取配置。同时,利用自监督学习的方式,从中间表示中重建手腕相机图像,从而嵌入抓取性先验,提升模型对抓取相关信息的理解和利用能力。
技术框架:GraspLDP 采用潜在扩散策略学习框架。整体流程包括:1) 使用编码器将状态信息(例如,手腕相机图像)编码到潜在空间;2) 在潜在空间中进行扩散过程,逐步添加噪声;3) 使用反向扩散过程,从噪声中逐步恢复出动作序列,并使用抓取姿态先验进行引导;4) 在反向扩散的每一步,使用中间表示重建手腕相机图像,并反向投影抓取性,形成自监督学习目标。
关键创新:论文的关键创新在于将抓取先验知识有效地融入到扩散策略学习框架中。具体体现在两个方面:一是利用抓取姿态先验引导动作生成,确保生成的轨迹符合抓取运动学约束;二是引入自监督重建目标,从中间表示中学习抓取性先验,提升模型对抓取相关信息的感知能力。与现有方法相比,GraspLDP 能够更有效地利用抓取先验知识,从而提升抓取策略的精度和泛化能力。
关键设计:在抓取姿态先验方面,论文可能使用了预先训练的抓取姿态生成模型或专家知识来提供抓取姿态的约束。在自监督重建目标方面,损失函数的设计可能包括像素级别的重建损失和抓取性预测损失。网络结构方面,编码器和解码器可能采用了卷积神经网络或Transformer结构。具体的参数设置和网络结构细节需要在论文中进一步查找。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GraspLDP 在仿真和真实机器人实验中均显著优于基线方法。具体而言,GraspLDP 在抓取成功率、抓取精度和泛化能力方面均取得了显著提升。例如,在真实机器人实验中,GraspLDP 的抓取成功率比基线方法提高了XX%,表明其具有更强的动态抓取能力。
🎯 应用场景
该研究成果可应用于各种需要机器人抓取的场景,例如工业自动化、物流分拣、家庭服务机器人等。通过提高抓取精度和泛化能力,可以显著提升机器人的工作效率和适应性,使其能够更好地完成各种复杂任务。未来,该技术有望进一步推广到更广泛的机器人操纵任务中。
📄 摘要(原文)
This paper focuses on enhancing the grasping precision and generalization of manipulation policies learned via imitation learning. Diffusion-based policy learning methods have recently become the mainstream approach for robotic manipulation tasks. As grasping is a critical subtask in manipulation, the ability of imitation-learned policies to execute precise and generalizable grasps merits particular attention. Existing imitation learning techniques for grasping often suffer from imprecise grasp executions, limited spatial generalization, and poor object generalization. To address these challenges, we incorporate grasp prior knowledge into the diffusion policy framework. In particular, we employ a latent diffusion policy to guide action chunk decoding with grasp pose prior, ensuring that generated motion trajectories adhere closely to feasible grasp configurations. Furthermore, we introduce a self-supervised reconstruction objective during diffusion to embed the graspness prior: at each reverse diffusion step, we reconstruct wrist-camera images back-projected the graspness from the intermediate representations. Both simulation and real robot experiments demonstrate that our approach significantly outperforms baseline methods and exhibits strong dynamic grasping capabilities.