DKPMV: Dense Keypoints Fusion from Multi-View RGB Frames for 6D Pose Estimation of Textureless Objects

作者: Jiahong Chen, Jinghao Wang, Zi Wang, Ziwen Wang, Banglei Guan, Qifeng Yu

分类: cs.CV, cs.RO

发布日期: 2025-10-13

备注: 12 pages, 9 figures, submitted to ICRA 2026

💡 一句话要点

DKPMV：基于多视角RGB图像的稠密关键点融合，用于无纹理物体6D位姿估计

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 6D位姿估计 无纹理物体 多视角视觉 关键点检测 机器人 注意力机制 对称感知 位姿优化

📋 核心要点

现有方法在无纹理物体6D位姿估计中，依赖深度信息或对多视角几何信息利用不足，导致性能受限。
DKPMV通过多视角RGB图像进行稠密关键点融合，并设计三阶段渐进式位姿优化策略，有效利用多视角几何信息。
实验表明，DKPMV在ROBI数据集上超越了现有RGB和RGB-D方法，证明了其有效性。

📝 摘要（中文）

本文提出了一种名为DKPMV的流水线，仅使用多视角RGB图像作为输入，实现稠密关键点级别的融合，用于无纹理物体的6D位姿估计。由于深度信息的频繁丢失，无纹理物体的6D位姿估计在工业机器人应用中仍然具有挑战性。现有的多视角方法要么依赖于深度数据，要么对多视角几何线索的利用不足，限制了它们的性能。DKPMV设计了一个三阶段的渐进式位姿优化策略，利用稠密的多视角关键点几何信息。为了实现有效的稠密关键点融合，我们通过注意力聚合和对称感知训练来增强关键点网络，提高预测精度并解决对称物体的模糊性。在ROBI数据集上的大量实验表明，DKPMV优于最先进的多视角RGB方法，甚至在大多数情况下超过了RGB-D方法。代码即将开源。

🔬 方法详解

问题定义：论文旨在解决无纹理物体在工业机器人应用中的6D位姿估计问题。现有方法主要依赖深度信息或无法充分利用多视角RGB图像提供的几何信息，导致在深度信息缺失或质量较差的情况下，位姿估计精度显著下降。尤其对于对称物体，多视角信息带来的歧义性难以有效消除。

核心思路：论文的核心思路是利用多视角RGB图像提取稠密的关键点，并通过融合这些关键点的几何信息来估计物体的6D位姿。通过设计注意力机制和对称感知训练，提高关键点预测的准确性和鲁棒性，从而克服无纹理和对称性带来的挑战。渐进式的位姿优化策略进一步提升了位姿估计的精度。

技术框架：DKPMV pipeline 主要包含三个阶段：1) 多视角关键点检测：使用改进的关键点检测网络，从多个视角的RGB图像中提取稠密的关键点。2) 稠密关键点融合：通过注意力机制聚合来自不同视角的关键点信息，并利用对称感知训练来处理对称物体。3) 渐进式位姿优化：采用三阶段的位姿优化策略，逐步 refinement 位姿估计结果。

关键创新：论文的关键创新在于：1) 提出了基于多视角RGB图像的稠密关键点融合方法，避免了对深度信息的依赖。2) 设计了注意力聚合机制和对称感知训练方法，提高了关键点检测的准确性和鲁棒性，尤其是在处理对称物体时。3) 提出了三阶段渐进式位姿优化策略，进一步提升了位姿估计的精度。

关键设计：关键点检测网络采用了注意力机制，用于聚合来自不同视角的特征。对称感知训练通过引入对称损失函数，约束网络学习对称物体的对称性。三阶段位姿优化策略包括：初始位姿估计、迭代最近点(ICP) refinement 和基于关键点的位姿 refinement。损失函数包括关键点预测损失、对称损失（针对对称物体）和位姿损失。

📊 实验亮点

DKPMV在ROBI数据集上进行了广泛的实验，结果表明其性能优于现有的多视角RGB方法，并且在大多数情况下甚至超过了RGB-D方法。具体而言，DKPMV在位姿估计的精度和鲁棒性方面都取得了显著的提升，尤其是在处理对称物体时。实验结果验证了所提出的稠密关键点融合、注意力聚合和对称感知训练等关键技术的有效性。

🎯 应用场景

该研究成果可应用于工业机器人领域，例如自动化装配、物体抓取和操作等任务。通过仅使用RGB图像进行精确的6D位姿估计，降低了对深度传感器的依赖，从而降低了成本并提高了系统的鲁棒性。该方法在光照变化、遮挡和无纹理等复杂环境下具有潜在的应用价值，有助于实现更智能、更灵活的机器人系统。

📄 摘要（原文）

6D pose estimation of textureless objects is valuable for industrial robotic applications, yet remains challenging due to the frequent loss of depth information. Current multi-view methods either rely on depth data or insufficiently exploit multi-view geometric cues, limiting their performance. In this paper, we propose DKPMV, a pipeline that achieves dense keypoint-level fusion using only multi-view RGB images as input. We design a three-stage progressive pose optimization strategy that leverages dense multi-view keypoint geometry information. To enable effective dense keypoint fusion, we enhance the keypoint network with attentional aggregation and symmetry-aware training, improving prediction accuracy and resolving ambiguities on symmetric objects. Extensive experiments on the ROBI dataset demonstrate that DKPMV outperforms state-of-the-art multi-view RGB approaches and even surpasses the RGB-D methods in the majority of cases. The code will be available soon.

DKPMV: Dense Keypoints Fusion from Multi-View RGB Frames for 6D Pose Estimation of Textureless Objects

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册