6D Pose Estimation via Keypoint Heatmap Regression with RGB-D Residual Neural Networks

📄 arXiv: 2605.08059v1 📥 PDF

作者: Ismail Aljosevic, Amir Masoud Almasi, Ana Parovic, Ashkan Shafiei

分类: cs.CV, cs.RO

发布日期: 2026-05-08

备注: Source code available at: https://github.com/ameermasood/HeatNet

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于关键点热图回归的模块化框架,通过RGB-D交叉融合提升6D位姿估计精度

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 6D位姿估计 关键点热图回归 多模态融合 RGB-D感知 深度学习 计算机视觉

📋 核心要点

  1. 针对6D位姿估计中特征提取鲁棒性不足的问题,提出了一种结合目标检测与关键点热图回归的模块化处理流程。
  2. 采用YOLOv10m进行目标定位,并利用ResNet18回归关键点,通过多阶段RGB-D交叉融合架构增强特征表征能力。
  3. 实验表明,引入深度信息显著提升了位姿估计的准确性,在LINEMOD数据集上达到了92.41%的平均ADD精度。

📝 摘要(中文)

本文提出了一种基于关键点热图回归的模块化6D位姿估计框架。该方法结合了YOLOv10m目标检测器与基于ResNet18的回归网络,用于从RGB图像中预测2D关键点热图。通过PnP RANSAC算法,利用提取的关键点解算物体的6D位姿。研究对比了多种关键点选择策略对位姿精度的影响,并进一步通过交叉融合架构引入深度数据,实现了RGB与深度特征在多阶段的交互。此外,论文还探讨了激活函数选择和学习率调度等训练优化策略。在LINEMOD数据集上,纯RGB模型实现了84.50%的平均ADD精度,而RGB-D融合模型达到了92.41%。

🔬 方法详解

问题定义:论文旨在解决复杂场景下物体6D位姿估计的精度与鲁棒性问题。现有方法在处理遮挡、光照变化及单一模态信息缺失时,往往难以准确提取关键特征点,导致PnP算法解算出的位姿偏差较大。

核心思路:采用“检测-回归-解算”的模块化策略。通过YOLOv10m锁定目标区域,利用ResNet18回归关键点热图,将位姿估计问题转化为关键点定位问题,并通过引入深度数据进行特征级融合,弥补RGB图像在深度感知上的不足。

技术框架:系统分为三个阶段:首先使用YOLOv10m进行目标检测;其次利用ResNet18网络从裁剪后的图像中预测关键点热图;最后通过PnP RANSAC算法结合3D模型点集计算最终的6D位姿。RGB-D模型引入了交叉融合模块,在网络的不同深度层级实现RGB与深度特征的交互。

关键创新:引入了多阶段RGB-D交叉融合架构,使模型能够动态地从深度图中获取几何结构信息,从而增强关键点定位的准确性。同时,通过对比不同关键点选择策略,优化了从热图到3D坐标的映射过程。

关键设计:网络架构基于ResNet18,通过调整激活函数和学习率调度策略优化收敛过程。在融合阶段,设计了特定的特征交互机制,确保深度信息能够有效辅助RGB特征提取,从而在保持计算效率的同时显著提升模型性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验在LINEMOD数据集上进行了全面验证。纯RGB模型实现了84.50%的平均ADD精度,而通过引入多阶段RGB-D交叉融合架构,模型性能提升至92.41%。研究还深入分析了关键点选择策略及训练超参数对结果的影响,证明了该模块化框架在不同模态输入下的优越性与扩展性。

🎯 应用场景

该研究在工业自动化、机器人抓取及增强现实领域具有重要价值。通过高精度的6D位姿估计,机器人能够更准确地识别并抓取杂乱环境中的物体,提升物流分拣与装配任务的效率。此外,该技术也可应用于AR系统中的物体交互与虚拟对象叠加,具有广泛的工业与消费级应用前景。

📄 摘要(原文)

In this paper, we propose a modular framework for 6D pose estimation based on keypoint heatmap regression. Our approach combines YOLOv10m for object detection with a ResNet18-based network that predicts 2D heatmaps from RGB images. Keypoints extracted from these heatmaps are used to estimate the 6D object pose via the PnP RANSAC algorithm. We compare different keypoint selection strategies to assess their impact on pose accuracy. Additionally, we extend the baseline by incorporating depth data using a cross-fusion architecture, which enables interaction between RGB and depth features at multiple stages. We further explore general training improvements, such as experimenting with activation functions and learning rate scheduling strategies to improve model performance. Our best RGB-only model achieved a mean ADD-based accuracy of 84.50%, while the RGB-D fusion model reached 92.41% on the LINEMOD dataset. The code is available at https://github.com/ameermasood/HeatNet.