MAPRPose: Mask-Aware Proposal and Amodal Refinement for Multi-Object 6D Pose Estimation

作者: Yang Luo, Yan Gong, Yongsheng Gao, Xiaoying Sun, Jie Zhao

分类: cs.CV

发布日期: 2026-04-22

💡 一句话要点

MAPRPose：利用掩码感知和模态补全的多目标6D位姿估计

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 6D位姿估计 掩码感知 模态补全 ROI重对齐 机器人抓取

📋 核心要点

复杂场景下的6D位姿估计面临严重遮挡和传感器噪声的挑战，现有方法难以兼顾精度和效率。
MAPRPose通过掩码感知的对应关系进行位姿提议，并利用模态补全的ROI预测进行鲁棒的细化，提升了位姿估计的准确性和鲁棒性。
实验结果表明，MAPRPose在BOP基准测试中取得了state-of-the-art的平均召回率，并在多目标推理中实现了显著的加速。

📝 摘要（中文）

本文提出了一种名为MAPRPose的两阶段框架，用于解决复杂场景中由于严重遮挡和传感器噪声导致的6D物体位姿估计难题。该框架利用掩码感知的对应关系进行位姿提议，并采用模态驱动的感兴趣区域（ROI）预测进行鲁棒的细化。在掩码感知位姿提议（MAPP）阶段，我们将2D对应关系提升到3D空间，建立可靠的关键点匹配，并基于对应关系级别的评分生成几何一致的位姿假设，从中选择前K个候选者。在细化阶段，我们引入了一个张量化的渲染-比较流水线，并集成了模态掩码预测和ROI重对齐（AMPR）模块。通过重建完整的物体几何形状并动态调整ROI，AMPR减轻了严重遮挡下的定位误差和空间错位。此外，我们基于GPU加速的RGB-XYZ重投影技术，能够在单个前向传递中同时细化所有$N imes B$个位姿假设。在BOP基准测试中，MAPRPose实现了76.5%的最先进平均召回率（AR），比FoundationPose高出3.1% AR，同时在多目标推理中实现了43倍的加速。

🔬 方法详解

问题定义：在复杂场景中进行6D物体位姿估计，尤其是在存在严重遮挡和传感器噪声的情况下，是一个极具挑战性的问题。现有的方法往往难以在精度和效率之间取得平衡，容易受到遮挡的影响，导致位姿估计的准确性下降。

核心思路：MAPRPose的核心思路是利用掩码信息来提高位姿估计的鲁棒性，并采用模态补全的方法来处理遮挡问题。通过掩码感知的对应关系进行位姿提议，可以减少错误匹配的影响。利用模态驱动的ROI预测进行细化，可以更好地处理遮挡情况下的物体定位。

技术框架：MAPRPose是一个两阶段的框架。第一阶段是掩码感知位姿提议（MAPP），该阶段将2D对应关系提升到3D空间，建立可靠的关键点匹配，并生成几何一致的位姿假设。第二阶段是细化阶段，该阶段引入了一个张量化的渲染-比较流水线，并集成了模态掩码预测和ROI重对齐（AMPR）模块。AMPR模块通过重建完整的物体几何形状并动态调整ROI，减轻了遮挡带来的影响。

关键创新：MAPRPose的关键创新在于以下几点：(1) 提出了掩码感知的位姿提议方法，利用掩码信息来提高对应关系的可靠性。(2) 引入了模态掩码预测和ROI重对齐模块，通过重建完整的物体几何形状并动态调整ROI，减轻了遮挡带来的影响。(3) 采用了GPU加速的RGB-XYZ重投影技术，实现了高效的位姿细化。

关键设计：在MAPP阶段，使用了对应关系级别的评分机制来选择高质量的位姿假设。在AMPR模块中，使用了张量化的渲染-比较流水线，实现了高效的位姿细化。ROI重对齐模块通过预测模态掩码来动态调整ROI，从而更好地处理遮挡情况。损失函数的设计也考虑了遮挡的影响，使用了加权损失函数来提高被遮挡区域的权重。

🖼️ 关键图片

📊 实验亮点

MAPRPose在BOP基准测试中取得了显著的成果，实现了76.5%的平均召回率（AR），超过了FoundationPose 3.1%的AR。此外，MAPRPose在多目标推理中实现了43倍的加速，表明其具有很高的效率。这些结果表明，MAPRPose是一种高效且准确的6D物体位姿估计方法。

🎯 应用场景

MAPRPose在机器人抓取、自动驾驶、增强现实等领域具有广泛的应用前景。例如，在机器人抓取中，可以利用MAPRPose准确估计物体的位姿，从而实现精确的抓取操作。在自动驾驶中，可以利用MAPRPose识别和定位周围的物体，提高自动驾驶系统的安全性。在增强现实中，可以利用MAPRPose将虚拟物体与真实场景进行精确的对齐。

📄 摘要（原文）

6D object pose estimation in cluttered scenes remains challenging due to severe occlusion and sensor noise. We propose MAPRPose, a two-stage framework that leverages mask-aware correspondences for pose proposal and amodal-driven Region-of-Interest (ROI) prediction for robust refinement. In the Mask-Aware Pose Proposal (MAPP) stage, we lift 2D correspondences into 3D space to establish reliable keypoint matches and generate geometrically consistent pose hypotheses based on correspondence-level scoring, from which the top-$K$ candidates are selected. In the refinement stage, we introduce a tensorized render-and-compare pipeline integrated with an Amodal Mask Prediction and ROI Re-Alignment (AMPR) module. By reconstructing complete object geometry and dynamically adjusting the ROI, AMPR mitigates localization errors and spatial misalignment under heavy occlusion. Furthermore, our GPU-accelerated RGB-XYZ reprojection enables simultaneous refinement of all $N \times B$ pose hypotheses in a single forward pass. Evaluated on the BOP benchmark, MAPRPose achieves a state-of-the-art Average Recall (AR) of 76.5%, outperforming FoundationPose by 3.1% AR while delivering a 43x speedup in multi-object inference.

MAPRPose: Mask-Aware Proposal and Amodal Refinement for Multi-Object 6D Pose Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理