DKPMV: Dense Keypoints Fusion from Multi-View RGB Frames for 6D Pose Estimation of Textureless Objects
作者: Jiahong Chen, Jinghao Wang, Zi Wang, Ziwen Wang, Banglei Guan, Qifeng Yu
分类: cs.CV, cs.RO
发布日期: 2025-10-13
备注: 12 pages, 9 figures, submitted to ICRA 2026
💡 一句话要点
DKPMV:基于多视角RGB图像的稠密关键点融合,用于无纹理物体6D位姿估计
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 6D位姿估计 无纹理物体 多视角视觉 关键点检测 机器人 注意力机制 对称感知 位姿优化
📋 核心要点
- 现有方法在无纹理物体6D位姿估计中,依赖深度信息或对多视角几何信息利用不足,导致性能受限。
- DKPMV通过多视角RGB图像进行稠密关键点融合,并设计三阶段渐进式位姿优化策略,有效利用多视角几何信息。
- 实验表明,DKPMV在ROBI数据集上超越了现有RGB和RGB-D方法,证明了其有效性。
📝 摘要(中文)
本文提出了一种名为DKPMV的流水线,仅使用多视角RGB图像作为输入,实现稠密关键点级别的融合,用于无纹理物体的6D位姿估计。由于深度信息的频繁丢失,无纹理物体的6D位姿估计在工业机器人应用中仍然具有挑战性。现有的多视角方法要么依赖于深度数据,要么对多视角几何线索的利用不足,限制了它们的性能。DKPMV设计了一个三阶段的渐进式位姿优化策略,利用稠密的多视角关键点几何信息。为了实现有效的稠密关键点融合,我们通过注意力聚合和对称感知训练来增强关键点网络,提高预测精度并解决对称物体的模糊性。在ROBI数据集上的大量实验表明,DKPMV优于最先进的多视角RGB方法,甚至在大多数情况下超过了RGB-D方法。代码即将开源。
🔬 方法详解
问题定义:论文旨在解决无纹理物体在工业机器人应用中的6D位姿估计问题。现有方法主要依赖深度信息或无法充分利用多视角RGB图像提供的几何信息,导致在深度信息缺失或质量较差的情况下,位姿估计精度显著下降。尤其对于对称物体,多视角信息带来的歧义性难以有效消除。
核心思路:论文的核心思路是利用多视角RGB图像提取稠密的关键点,并通过融合这些关键点的几何信息来估计物体的6D位姿。通过设计注意力机制和对称感知训练,提高关键点预测的准确性和鲁棒性,从而克服无纹理和对称性带来的挑战。渐进式的位姿优化策略进一步提升了位姿估计的精度。
技术框架:DKPMV pipeline 主要包含三个阶段:1) 多视角关键点检测:使用改进的关键点检测网络,从多个视角的RGB图像中提取稠密的关键点。2) 稠密关键点融合:通过注意力机制聚合来自不同视角的关键点信息,并利用对称感知训练来处理对称物体。3) 渐进式位姿优化:采用三阶段的位姿优化策略,逐步 refinement 位姿估计结果。
关键创新:论文的关键创新在于:1) 提出了基于多视角RGB图像的稠密关键点融合方法,避免了对深度信息的依赖。2) 设计了注意力聚合机制和对称感知训练方法,提高了关键点检测的准确性和鲁棒性,尤其是在处理对称物体时。3) 提出了三阶段渐进式位姿优化策略,进一步提升了位姿估计的精度。
关键设计:关键点检测网络采用了注意力机制,用于聚合来自不同视角的特征。对称感知训练通过引入对称损失函数,约束网络学习对称物体的对称性。三阶段位姿优化策略包括:初始位姿估计、迭代最近点(ICP) refinement 和基于关键点的位姿 refinement。损失函数包括关键点预测损失、对称损失(针对对称物体)和位姿损失。
📊 实验亮点
DKPMV在ROBI数据集上进行了广泛的实验,结果表明其性能优于现有的多视角RGB方法,并且在大多数情况下甚至超过了RGB-D方法。具体而言,DKPMV在位姿估计的精度和鲁棒性方面都取得了显著的提升,尤其是在处理对称物体时。实验结果验证了所提出的稠密关键点融合、注意力聚合和对称感知训练等关键技术的有效性。
🎯 应用场景
该研究成果可应用于工业机器人领域,例如自动化装配、物体抓取和操作等任务。通过仅使用RGB图像进行精确的6D位姿估计,降低了对深度传感器的依赖,从而降低了成本并提高了系统的鲁棒性。该方法在光照变化、遮挡和无纹理等复杂环境下具有潜在的应用价值,有助于实现更智能、更灵活的机器人系统。
📄 摘要(原文)
6D pose estimation of textureless objects is valuable for industrial robotic applications, yet remains challenging due to the frequent loss of depth information. Current multi-view methods either rely on depth data or insufficiently exploit multi-view geometric cues, limiting their performance. In this paper, we propose DKPMV, a pipeline that achieves dense keypoint-level fusion using only multi-view RGB images as input. We design a three-stage progressive pose optimization strategy that leverages dense multi-view keypoint geometry information. To enable effective dense keypoint fusion, we enhance the keypoint network with attentional aggregation and symmetry-aware training, improving prediction accuracy and resolving ambiguities on symmetric objects. Extensive experiments on the ROBI dataset demonstrate that DKPMV outperforms state-of-the-art multi-view RGB approaches and even surpasses the RGB-D methods in the majority of cases. The code will be available soon.