MAPRPose: Mask-Aware Proposal and Amodal Refinement for Multi-Object 6D Pose Estimation

📄 arXiv: 2604.20650v1 📥 PDF

作者: Yang Luo, Yan Gong, Yongsheng Gao, Xiaoying Sun, Jie Zhao

分类: cs.CV

发布日期: 2026-04-22


💡 一句话要点

MAPRPose:利用掩码感知和模态补全的多目标6D位姿估计

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 6D位姿估计 掩码感知 模态补全 ROI重对齐 机器人抓取

📋 核心要点

  1. 复杂场景下的6D位姿估计面临严重遮挡和传感器噪声的挑战,现有方法难以兼顾精度和效率。
  2. MAPRPose通过掩码感知的对应关系进行位姿提议,并利用模态补全的ROI预测进行鲁棒的细化,提升了位姿估计的准确性和鲁棒性。
  3. 实验结果表明,MAPRPose在BOP基准测试中取得了state-of-the-art的平均召回率,并在多目标推理中实现了显著的加速。

📝 摘要(中文)

本文提出了一种名为MAPRPose的两阶段框架,用于解决复杂场景中由于严重遮挡和传感器噪声导致的6D物体位姿估计难题。该框架利用掩码感知的对应关系进行位姿提议,并采用模态驱动的感兴趣区域(ROI)预测进行鲁棒的细化。在掩码感知位姿提议(MAPP)阶段,我们将2D对应关系提升到3D空间,建立可靠的关键点匹配,并基于对应关系级别的评分生成几何一致的位姿假设,从中选择前K个候选者。在细化阶段,我们引入了一个张量化的渲染-比较流水线,并集成了模态掩码预测和ROI重对齐(AMPR)模块。通过重建完整的物体几何形状并动态调整ROI,AMPR减轻了严重遮挡下的定位误差和空间错位。此外,我们基于GPU加速的RGB-XYZ重投影技术,能够在单个前向传递中同时细化所有$N imes B$个位姿假设。在BOP基准测试中,MAPRPose实现了76.5%的最先进平均召回率(AR),比FoundationPose高出3.1% AR,同时在多目标推理中实现了43倍的加速。

🔬 方法详解

问题定义:在复杂场景中进行6D物体位姿估计,尤其是在存在严重遮挡和传感器噪声的情况下,是一个极具挑战性的问题。现有的方法往往难以在精度和效率之间取得平衡,容易受到遮挡的影响,导致位姿估计的准确性下降。

核心思路:MAPRPose的核心思路是利用掩码信息来提高位姿估计的鲁棒性,并采用模态补全的方法来处理遮挡问题。通过掩码感知的对应关系进行位姿提议,可以减少错误匹配的影响。利用模态驱动的ROI预测进行细化,可以更好地处理遮挡情况下的物体定位。

技术框架:MAPRPose是一个两阶段的框架。第一阶段是掩码感知位姿提议(MAPP),该阶段将2D对应关系提升到3D空间,建立可靠的关键点匹配,并生成几何一致的位姿假设。第二阶段是细化阶段,该阶段引入了一个张量化的渲染-比较流水线,并集成了模态掩码预测和ROI重对齐(AMPR)模块。AMPR模块通过重建完整的物体几何形状并动态调整ROI,减轻了遮挡带来的影响。

关键创新:MAPRPose的关键创新在于以下几点:(1) 提出了掩码感知的位姿提议方法,利用掩码信息来提高对应关系的可靠性。(2) 引入了模态掩码预测和ROI重对齐模块,通过重建完整的物体几何形状并动态调整ROI,减轻了遮挡带来的影响。(3) 采用了GPU加速的RGB-XYZ重投影技术,实现了高效的位姿细化。

关键设计:在MAPP阶段,使用了对应关系级别的评分机制来选择高质量的位姿假设。在AMPR模块中,使用了张量化的渲染-比较流水线,实现了高效的位姿细化。ROI重对齐模块通过预测模态掩码来动态调整ROI,从而更好地处理遮挡情况。损失函数的设计也考虑了遮挡的影响,使用了加权损失函数来提高被遮挡区域的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MAPRPose在BOP基准测试中取得了显著的成果,实现了76.5%的平均召回率(AR),超过了FoundationPose 3.1%的AR。此外,MAPRPose在多目标推理中实现了43倍的加速,表明其具有很高的效率。这些结果表明,MAPRPose是一种高效且准确的6D物体位姿估计方法。

🎯 应用场景

MAPRPose在机器人抓取、自动驾驶、增强现实等领域具有广泛的应用前景。例如,在机器人抓取中,可以利用MAPRPose准确估计物体的位姿,从而实现精确的抓取操作。在自动驾驶中,可以利用MAPRPose识别和定位周围的物体,提高自动驾驶系统的安全性。在增强现实中,可以利用MAPRPose将虚拟物体与真实场景进行精确的对齐。

📄 摘要(原文)

6D object pose estimation in cluttered scenes remains challenging due to severe occlusion and sensor noise. We propose MAPRPose, a two-stage framework that leverages mask-aware correspondences for pose proposal and amodal-driven Region-of-Interest (ROI) prediction for robust refinement. In the Mask-Aware Pose Proposal (MAPP) stage, we lift 2D correspondences into 3D space to establish reliable keypoint matches and generate geometrically consistent pose hypotheses based on correspondence-level scoring, from which the top-$K$ candidates are selected. In the refinement stage, we introduce a tensorized render-and-compare pipeline integrated with an Amodal Mask Prediction and ROI Re-Alignment (AMPR) module. By reconstructing complete object geometry and dynamically adjusting the ROI, AMPR mitigates localization errors and spatial misalignment under heavy occlusion. Furthermore, our GPU-accelerated RGB-XYZ reprojection enables simultaneous refinement of all $N \times B$ pose hypotheses in a single forward pass. Evaluated on the BOP benchmark, MAPRPose achieves a state-of-the-art Average Recall (AR) of 76.5%, outperforming FoundationPose by 3.1% AR while delivering a 43x speedup in multi-object inference.