KGN-Pro: Keypoint-Based Grasp Prediction through Probabilistic 2D-3D Correspondence Learning

📄 arXiv: 2507.14820v2 📥 PDF

作者: Bingran Chen, Baorun Li, Jian Yang, Yong Liu, Guangyao Zhai

分类: cs.RO

发布日期: 2025-07-20 (更新: 2025-07-31)


💡 一句话要点

KGN-Pro:基于概率2D-3D对应学习的关键点抓取预测网络

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 机器人抓取 关键点预测 6自由度姿态估计 概率PnP 2D-3D对应 端到端学习 RGB-D图像处理

📋 核心要点

  1. 现有方法在小物体和传感器噪声下直接从点云数据生成抓取姿态,或从RGB图像推断3D信息,面临标注成本高和离散化问题。
  2. KGN-Pro通过概率PnP层集成直接3D优化,利用2D关键点预测和3D监督信息,实现端到端学习,提升抓取性能。
  3. 实验结果表明,KGN-Pro在模拟和真实场景中,抓取覆盖率和成功率均优于现有方法,验证了其有效性。

📝 摘要(中文)

本文提出了一种新的抓取网络KGN-Pro,它保留了先前KGN的效率和精细物体抓取能力,同时通过概率PnP层集成直接3D优化。KGN-Pro编码配对的RGB-D图像以生成关键点图,并进一步输出2D置信度图,以在重投影误差最小化期间对关键点贡献进行加权。通过概率方式对加权平方重投影误差和进行建模,该网络有效地将3D监督传递到其2D关键点预测,从而实现端到端学习。在模拟和真实平台上的实验表明,KGN-Pro在抓取覆盖率和成功率方面优于现有方法。

🔬 方法详解

问题定义:论文旨在解决机器人抓取任务中,如何更有效地利用RGB-D信息进行6自由度抓取姿态估计的问题。现有方法要么依赖点云数据,对小物体和噪声敏感;要么从RGB图像推断3D信息,标注成本高且存在离散化误差。基于2D关键点的方法虽然降低了标注成本,但依赖非可微的PnP算法,且仅使用2D监督,无法充分利用3D信息。

核心思路:KGN-Pro的核心思路是结合2D关键点预测的效率和3D信息的优势,通过概率PnP层将3D监督信息融入到2D关键点预测中,实现端到端的可微学习。通过对重投影误差进行概率建模,网络能够有效地将3D信息传递到2D关键点,从而提高抓取姿态估计的准确性。

技术框架:KGN-Pro的整体框架包括以下几个主要模块:1) RGB-D图像编码器:用于提取RGB-D图像的特征。2) 关键点图生成器:基于编码后的特征生成关键点图,预测2D关键点的位置。3) 2D置信度图生成器:预测每个关键点的置信度,用于加权关键点在重投影误差计算中的贡献。4) 概率PnP层:利用预测的2D关键点、置信度和已知的3D关键点坐标,通过概率方式最小化重投影误差,估计6自由度抓取姿态。

关键创新:KGN-Pro的关键创新在于引入了概率PnP层,实现了端到端的2D-3D融合。传统的PnP算法是不可微的,无法直接进行端到端训练。KGN-Pro通过对重投影误差进行概率建模,将其转化为可微的损失函数,从而可以将3D监督信息反向传播到2D关键点预测模块,优化整个网络。

关键设计:KGN-Pro的关键设计包括:1) 使用置信度图加权关键点贡献,降低噪声关键点的影响。2) 对重投影误差进行概率建模,假设误差服从高斯分布,并最大化误差的似然函数。3) 使用合适的网络结构(具体结构未知)进行RGB-D特征提取和关键点预测。4) 损失函数包括重投影误差损失和关键点预测损失,共同优化网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,KGN-Pro在模拟和真实场景中均取得了显著的性能提升。在抓取覆盖率和成功率方面,KGN-Pro均优于现有的基于关键点的抓取方法。具体提升幅度未知,但摘要中明确指出优于现有方法,证明了概率PnP层和端到端学习的有效性。

🎯 应用场景

KGN-Pro在机器人操作领域具有广泛的应用前景,例如:工业自动化中的零件抓取、家庭服务机器人中的物体操作、医疗机器人中的手术辅助等。该方法能够提高机器人抓取物体时的鲁棒性和准确性,使其能够更好地适应复杂和动态的环境,从而实现更高级别的操作任务。

📄 摘要(原文)

High-level robotic manipulation tasks demand flexible 6-DoF grasp estimation to serve as a basic function. Previous approaches either directly generate grasps from point-cloud data, suffering from challenges with small objects and sensor noise, or infer 3D information from RGB images, which introduces expensive annotation requirements and discretization issues. Recent methods mitigate some challenges by retaining a 2D representation to estimate grasp keypoints and applying Perspective-n-Point (PnP) algorithms to compute 6-DoF poses. However, these methods are limited by their non-differentiable nature and reliance solely on 2D supervision, which hinders the full exploitation of rich 3D information. In this work, we present KGN-Pro, a novel grasping network that preserves the efficiency and fine-grained object grasping of previous KGNs while integrating direct 3D optimization through probabilistic PnP layers. KGN-Pro encodes paired RGB-D images to generate Keypoint Map, and further outputs a 2D confidence map to weight keypoint contributions during re-projection error minimization. By modeling the weighted sum of squared re-projection errors probabilistically, the network effectively transmits 3D supervision to its 2D keypoint predictions, enabling end-to-end learning. Experiments on both simulated and real-world platforms demonstrate that KGN-Pro outperforms existing methods in terms of grasp cover rate and success rate.