Beyond 'Templates': Category-Agnostic Object Pose, Size, and Shape Estimation from a Single View
作者: Jinyu Zhang, Haitao Lin, Jiashu Hou, Xiangyang Xue, Yanwei Fu
分类: cs.CV
发布日期: 2025-10-13
💡 一句话要点
提出一种类别无关的单视图物体位姿、尺寸和形状估计框架。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 6D位姿估计 形状估计 类别无关 Transformer 零样本学习
📋 核心要点
- 现有方法依赖于物体特定先验或存在位姿-形状纠缠问题,限制了跨类别的泛化能力。
- 提出一种统一框架,无需模板或CAD模型,即可从单张RGB-D图像中预测6D位姿、尺寸和形状。
- 在多个数据集上验证,即使在未见过的类别上,也表现出强大的零样本泛化能力。
📝 摘要(中文)
本文提出了一种统一的、类别无关的框架,用于从单个RGB-D图像中同时预测物体的6D位姿、尺寸和密集形状,而无需模板、CAD模型或测试时的类别标签。该模型融合了视觉基础模型的密集2D特征和部分3D点云,使用Transformer编码器(通过混合专家模型增强),并采用并行解码器进行位姿-尺寸估计和形状重建,实现了28 FPS的实时推理速度。该框架仅在SOPE数据集中149个类别的合成数据上进行训练,并在SOPE、ROPE、ObjaversePose和HANDAL四个不同的基准上进行了评估,涵盖了300多个类别。在已见类别上实现了最先进的精度,同时对未见真实世界物体表现出非常强的零样本泛化能力,为机器人和具身人工智能中的开放集6D理解建立了新的标准。
🔬 方法详解
问题定义:现有方法在进行6D位姿、尺寸和形状估计时,通常依赖于物体特定的CAD模型或模板,这限制了其在开放环境下的应用。此外,一些方法存在位姿和形状的纠缠问题,以及多阶段pipeline导致的误差累积,难以实现高效和准确的估计。因此,如何实现类别无关的、高效的、准确的6D位姿、尺寸和形状估计是一个关键问题。
核心思路:本文的核心思路是利用视觉基础模型提取的通用2D特征,并将其与3D点云信息融合,从而实现对物体位姿、尺寸和形状的解耦估计。通过Transformer架构学习2D和3D特征之间的关系,并使用并行解码器分别预测位姿-尺寸和形状,避免了信息之间的相互干扰。
技术框架:该框架主要包含三个模块:特征提取模块、Transformer编码器模块和并行解码器模块。首先,利用视觉基础模型提取RGB-D图像的2D特征,并对3D点云进行处理。然后,使用Transformer编码器融合2D和3D特征,并通过混合专家模型增强特征表达能力。最后,使用两个并行解码器,一个用于预测6D位姿和尺寸,另一个用于重建物体的密集形状。
关键创新:该方法最重要的创新点在于其类别无关性,即无需针对特定物体进行训练或提供CAD模型,即可实现对未知物体的6D位姿、尺寸和形状估计。此外,通过Transformer架构和并行解码器的设计,有效地解耦了位姿、尺寸和形状之间的关系,提高了估计的准确性和鲁棒性。
关键设计:Transformer编码器采用多头注意力机制,用于学习2D和3D特征之间的关系。混合专家模型用于增强特征表达能力,提高模型的泛化能力。位姿-尺寸解码器采用回归的方式预测6D位姿参数和尺寸参数。形状解码器采用点云重建的方式预测物体的密集形状。损失函数包括位姿损失、尺寸损失和形状损失,用于优化模型的参数。
📊 实验亮点
该框架在SOPE、ROPE、ObjaversePose和HANDAL四个数据集上进行了评估,在已见类别上取得了state-of-the-art的精度。更重要的是,该框架在未见类别上表现出强大的零样本泛化能力,显著优于现有方法。例如,在ObjaversePose数据集上,该方法在未见类别上的性能提升超过了10%。此外,该框架实现了28 FPS的实时推理速度,满足了实际应用的需求。
🎯 应用场景
该研究成果可广泛应用于机器人操作、自动驾驶、增强现实等领域。例如,机器人可以利用该技术识别和抓取各种形状和大小的物体,自动驾驶系统可以利用该技术感知周围环境中的物体,增强现实应用可以利用该技术将虚拟物体与真实场景进行精确对齐。该技术的发展将有助于实现更智能、更自主的机器人和人工智能系统。
📄 摘要(原文)
Estimating an object's 6D pose, size, and shape from visual input is a fundamental problem in computer vision, with critical applications in robotic grasping and manipulation. Existing methods either rely on object-specific priors such as CAD models or templates, or suffer from limited generalization across categories due to pose-shape entanglement and multi-stage pipelines. In this work, we propose a unified, category-agnostic framework that simultaneously predicts 6D pose, size, and dense shape from a single RGB-D image, without requiring templates, CAD models, or category labels at test time. Our model fuses dense 2D features from vision foundation models with partial 3D point clouds using a Transformer encoder enhanced by a Mixture-of-Experts, and employs parallel decoders for pose-size estimation and shape reconstruction, achieving real-time inference at 28 FPS. Trained solely on synthetic data from 149 categories in the SOPE dataset, our framework is evaluated on four diverse benchmarks SOPE, ROPE, ObjaversePose, and HANDAL, spanning over 300 categories. It achieves state-of-the-art accuracy on seen categories while demonstrating remarkably strong zero-shot generalization to unseen real-world objects, establishing a new standard for open-set 6D understanding in robotics and embodied AI.