OneViewAll: Semantic Prior Guided One-View 6D Pose Estimation for Novel Objects

📄 arXiv: 2605.07023v1 📥 PDF

作者: Yang Luo, Yan Gong, Yongsheng Gao, Jie Zhao, Xinyu Zhang, Huaping Liu

分类: cs.CV

发布日期: 2026-05-07


💡 一句话要点

提出OneViewAll框架,通过语义先验引导实现单视图无模型6D物体位姿估计

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 6D位姿估计 无模型估计 语义先验 投影等变 计算机视觉 机器人感知 对称性感知

📋 核心要点

  1. 现有6D位姿估计方法高度依赖CAD模型或多视图数据,在缺乏先验模型且仅有单视图参考的实际场景中扩展性受限。
  2. 提出OneViewAll框架,采用“投影-比较”范式,通过整合类别、对称性及补丁级语义先验,在投影等变空间内实现位姿对齐。
  3. 实验结果显示,该方法在LINEMOD数据集上达到92.5%的ADD-0.1准确率,大幅超越现有基线,且在处理遮挡和对称物体时表现稳健。

📝 摘要(中文)

在许多实际的6D物体位姿估计场景中,通常仅能获取每个物体单一的真实RGB-D参考视图,且往往缺乏CAD模型。现有方法大多依赖显式的3D模型或多视图数据,限制了其可扩展性。为解决这一挑战性的单参考视图、无模型设置,本文提出了OneViewAll,这是一个由语义先验引导的框架,通过一种新颖的“投影-比较”范式进行位姿估计。该方法摒弃了计算昂贵的基于CAD的渲染,直接在投影等变空间内对齐参考视图与查询观测。OneViewAll分层整合了三级语义先验:(1)用于高效假设初始化的类别与场景级先验;(2)用于通过镜像融合进行几何补全的物体级对称性先验;(3)用于判别式细化的补丁级先验。实验表明,OneViewAll在仅使用一个真实参考视图的情况下,在LINEMOD数据集上达到了92.5%的ADD-0.1准确率,显著优于CVPR 2025基线One2Any(52.6%),并在YCB-V等数据集上表现出一致的性能提升。

🔬 方法详解

问题定义:论文旨在解决“单参考视图、无CAD模型”条件下的6D物体位姿估计问题。现有方法通常依赖显式3D模型进行渲染对比,或需要多视图数据进行重建,这在工业自动化或机器人抓取等缺乏预设模型信息的场景中难以落地。

核心思路:论文提出了一种“投影-比较”范式,核心思想是避开昂贵的渲染过程,转而在投影等变空间内直接对齐参考观测与查询观测。通过引入分层语义先验,将位姿估计转化为一个由粗到精的优化过程,从而提升对无纹理、遮挡及对称物体的鲁棒性。

技术框架:整体架构包含三个阶段:首先利用类别与场景级先验进行位姿假设的快速初始化;其次利用物体级对称性先验通过镜像融合进行几何补全,解决单视图信息缺失问题;最后通过补丁级先验对位姿进行判别式细化,确保对齐精度。

关键创新:最重要的创新在于引入了“对称感知投影”机制,通过镜像融合补全几何信息,并利用投影等变空间替代传统的渲染对比,显著降低了计算复杂度并提升了对单视图输入的利用率。

关键设计:该方法采用了分层语义先验策略,通过学习到的特征空间进行投影对齐。损失函数设计侧重于特征空间内的相似度度量,并结合了对称性约束,以处理具有旋转对称性的物体,确保在遮挡情况下仍能保持位姿估计的稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OneViewAll在LINEMOD数据集上实现了92.5%的ADD-0.1准确率,相比CVPR 2025基线模型One2Any(52.6%)提升了近40个百分点。该方法在YCB-V、Real275及Toyota-Light等多个基准测试中均表现出显著的性能优势,且在保持高精度的同时维持了较低的推理延迟,证明了其在处理复杂遮挡和对称物体时的卓越能力。

🎯 应用场景

该技术在机器人自主抓取、工业自动化装配、增强现实(AR)以及仓储物流中具有重要价值。由于无需预先构建CAD模型,它能快速适应新物体,显著降低了部署成本,特别适用于小批量生产或非结构化环境下的物体识别与操作任务。

📄 摘要(原文)

In many practical 6D object pose estimation scenarios, we often have access to only a single real-world RGB-D reference view per object, typically without CAD models. Existing methods largely rely on explicit 3D models or multi-view data, which limits their scalability. To address this challenging single-reference model-free setting, we propose \textbf{OneViewAll}, a semantic-prior-guided framework that performs pose estimation via a novel Project-and-Compare paradigm. Instead of relying on computationally expensive CAD-based rendering, our method directly aligns reference and query observations within a projection-equivariant space. OneViewAll progressively integrates hierarchical semantic priors across three levels: (1) \textit{category- and scene-level} priors for efficient hypothesis initialization; (2) \textit{object-level symmetry} priors for geometry completion via mirror fusion; and (3) \textit{patch-level} priors for discriminative refinement. Extensive experiments demonstrate that OneViewAll achieves \textbf{92.5\%} ADD-0.1 accuracy on the LINEMOD dataset using only one real reference view -- significantly outperforming the CVPR 2025 baseline One2Any (52.6\%). It also yields consistent improvements on YCB-V, Real275, and Toyota-Light while maintaining low inference latency. Our results underscore the efficacy of symmetry-aware projection in handling symmetric, texture-less, and occluded objects.