Object Pose Transformer: Unifying Unseen Object Pose Estimation

📄 arXiv: 2603.23370v1 📥 PDF

作者: Weihang Li, Lorenzo Garattoni, Fabien Despinoy, Nassir Navab, Benjamin Busam

分类: cs.CV

发布日期: 2026-03-24

备注: Project Page: https://colin-de.github.io/OPT-Pose/


💡 一句话要点

Object Pose Transformer:统一的无监督物体姿态估计框架

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 物体姿态估计 Transformer 无监督学习 对比学习 点云 几何推理 机器人视觉

📋 核心要点

  1. 现有物体姿态估计方法要么依赖预定义的类别进行绝对姿态预测,要么只能估计相对姿态,无法恢复单视角绝对姿态。
  2. Object Pose Transformer通过联合预测深度、点云图、相机参数和NOCS,在单个模型中统一了绝对姿态和相对姿态估计。
  3. 该模型利用对比学习的物体中心嵌入进行规范化,无需语义标签,并通过跨视角几何一致性提升绝对姿态估计精度,并在多个数据集上取得了SOTA性能。

📝 摘要(中文)

本文提出Object Pose Transformer (OPT),一个统一的前馈框架,旨在弥合物体姿态估计中绝对姿态(category-level)和相对姿态(relative pose)两种范式之间的差距。OPT从RGB图像联合预测深度、点云图、相机参数和归一化物体坐标(NOCS),从而实现category-level的绝对SA(3)姿态估计和无监督物体的相对SE(3)姿态估计。该方法利用对比物体中心潜在嵌入进行规范化,无需推理时的语义标签,并使用点云图作为相机空间表示,以实现多视角相对几何推理。通过跨帧特征交互和共享物体嵌入,该模型利用跨视角的相对几何一致性来改善绝对姿态估计,减少单视角预测中的歧义。此外,OPT是相机无关的,可以动态学习相机内参,并支持可选的深度输入以恢复度量尺度,同时在仅RGB设置中保持完全功能。在多个基准数据集(NOCS、HouseCat6D、Omni6DPose、Toyota-Light)上的大量实验表明,该模型在单个统一架构中实现了绝对和相对姿态估计任务的state-of-the-art性能。

🔬 方法详解

问题定义:现有物体姿态估计方法存在两个主要痛点。一是category-level方法依赖预定义的物体类别,泛化性受限;二是relative pose方法只能估计不同视角之间的相对变换,无法直接获得物体在世界坐标系下的绝对姿态。因此,如何实现一个通用的、无需预定义类别且能同时估计绝对和相对姿态的物体姿态估计框架是一个关键问题。

核心思路:Object Pose Transformer的核心思路是将绝对姿态估计和相对姿态估计统一到一个框架中。通过联合预测深度、点云图、相机参数和NOCS,模型能够学习到物体在相机坐标系下的表示,并利用跨视角的几何一致性来提升姿态估计的准确性。对比学习用于学习物体中心的潜在嵌入,从而实现规范化,无需语义标签。

技术框架:Object Pose Transformer的整体架构是一个前馈网络,输入为RGB图像(可选深度图)。主要模块包括:1) 特征提取模块:提取图像特征;2) 姿态预测模块:联合预测深度、点云图、相机参数和NOCS;3) 规范化模块:利用对比学习的物体中心嵌入进行规范化;4) 相对几何推理模块:利用点云图和跨视角特征交互进行相对几何推理,提升绝对姿态估计的准确性。

关键创新:Object Pose Transformer的关键创新在于:1) 统一了绝对姿态和相对姿态估计,无需预定义类别;2) 利用对比学习进行规范化,无需语义标签;3) 利用点云图和跨视角几何一致性进行相对几何推理,提升绝对姿态估计的准确性;4) 相机无关,可以动态学习相机内参。

关键设计:在损失函数方面,模型使用了多种损失函数来约束深度、点云图、相机参数和NOCS的预测。对比学习损失用于学习物体中心的潜在嵌入。网络结构方面,使用了Transformer架构进行特征交互和姿态预测。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Object Pose Transformer在NOCS、HouseCat6D、Omni6DPose和Toyota-Light等多个数据集上取得了state-of-the-art的性能。实验结果表明,该模型在绝对姿态估计和相对姿态估计方面均优于现有方法。尤其是在无监督物体姿态估计方面,该模型取得了显著的提升。

🎯 应用场景

Object Pose Transformer在机器人操作、增强现实、自动驾驶等领域具有广泛的应用前景。例如,在机器人操作中,该模型可以帮助机器人识别和抓取未见过的物体;在增强现实中,该模型可以实现物体姿态的精确估计,从而实现更逼真的AR体验;在自动驾驶中,该模型可以帮助车辆感知周围环境中的物体,并进行精确的定位。

📄 摘要(原文)

Learning model-free object pose estimation for unseen instances remains a fundamental challenge in 3D vision. Existing methods typically fall into two disjoint paradigms: category-level approaches predict absolute poses in a canonical space but rely on predefined taxonomies, while relative pose methods estimate cross-view transformations but cannot recover single-view absolute pose. In this work, we propose Object Pose Transformer (\ours{}), a unified feed-forward framework that bridges these paradigms through task factorization within a single model. \ours{} jointly predicts depth, point maps, camera parameters, and normalized object coordinates (NOCS) from RGB inputs, enabling both category-level absolute SA(3) pose and unseen-object relative SE(3) pose. Our approach leverages contrastive object-centric latent embeddings for canonicalization without requiring semantic labels at inference time, and uses point maps as a camera-space representation to enable multi-view relative geometric reasoning. Through cross-frame feature interaction and shared object embeddings, our model leverages relative geometric consistency across views to improve absolute pose estimation, reducing ambiguity in single-view predictions. Furthermore, \ours{} is camera-agnostic, learning camera intrinsics on-the-fly and supporting optional depth input for metric-scale recovery, while remaining fully functional in RGB-only settings. Extensive experiments on diverse benchmarks (NOCS, HouseCat6D, Omni6DPose, Toyota-Light) demonstrate state-of-the-art performance in both absolute and relative pose estimation tasks within a single unified architecture.