OCH3R: Object-Centric Holistic 3D Reconstruction
作者: Yi Du, Yang You, Xiang Wan, Leonidas Guibas
分类: cs.CV
发布日期: 2026-05-13
💡 一句话要点
OCH3R:单目RGB图像物体中心整体3D重建框架
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 物体中心重建 3D重建 单目视觉 Transformer 6D姿态估计 场景理解 高斯表示
📋 核心要点
- 现有方法依赖多阶段流程,计算成本高,易受分割误差影响,且难以扩展到复杂场景。
- OCH3R使用Transformer架构,通过单次前向传播,同时预测物体实例的6D姿态和3D重建。
- 实验表明,OCH3R在多个任务上达到SOTA,并显著提升了推理速度,尤其是在复杂场景中。
📝 摘要(中文)
本文提出OCH3R,一个统一的框架,用于从单张RGB图像进行物体中心的整体3D重建。OCH3R通过一次前向传播同时预测所有物体实例的6D姿态和详细的3D重建。核心思想是使用Transformer架构预测每个像素的属性,包括基于CLIP的类别嵌入、度量深度、归一化物体坐标(NOCS)以及表示每个物体的固定数量的3D高斯分布。为了监督这些高斯重建,我们使用预测的6D姿态将它们转换到规范空间,并与预渲染的规范ground truth对齐,避免了昂贵的逐图像高斯标签生成。在标准室内基准测试中,OCH3R在单目深度估计、开放词汇语义分割和仅RGB的类别级6D姿态估计方面取得了最先进的性能,同时生成了高保真、可编辑的逐物体重建。重要的是,推理是完全前馈的,并且与物体数量无关,与杂乱场景中的传统多阶段流水线相比,提供了数量级的速度提升。
🔬 方法详解
问题定义:现有物体中心的三维场景理解方法通常采用多阶段流程,首先使用预训练的分割器提取单个物体,然后进行逐物体的三维重建。这种方法计算量大,容易受到分割错误的影响,并且难以扩展到包含大量物体的复杂场景。因此,如何高效、准确地从单张RGB图像中重建场景中的所有物体,包括它们的6D姿态和详细的3D模型,是一个重要的挑战。
核心思路:OCH3R的核心思路是采用一种端到端的学习方法,避免了传统多阶段流程中的分割步骤。它通过一个统一的框架,直接从单张RGB图像预测场景中所有物体的6D姿态和3D重建。这种方法利用Transformer架构的强大表示能力,能够同时处理场景中的多个物体,并且具有良好的可扩展性。
技术框架:OCH3R的整体架构是一个基于Transformer的像素级预测网络。该网络以单张RGB图像作为输入,输出每个像素的属性,包括CLIP类别嵌入、度量深度、归一化物体坐标(NOCS)以及一组3D高斯分布,用于表示每个物体。网络包含一个编码器用于提取图像特征,以及一个解码器用于预测像素属性。预测的3D高斯分布通过预测的6D姿态转换到规范空间,并与预渲染的规范ground truth对齐,用于监督训练。
关键创新:OCH3R的关键创新在于其统一的端到端框架,能够同时预测所有物体的6D姿态和3D重建。与传统方法相比,它避免了昂贵的分割步骤,并且具有更好的可扩展性。此外,使用3D高斯分布表示物体,并将其转换到规范空间进行监督,避免了逐图像生成高斯标签的需要,提高了训练效率。
关键设计:OCH3R使用CLIP模型提取类别嵌入,以实现开放词汇语义分割。使用度量深度和NOCS坐标来约束物体的几何形状。3D高斯分布的数量是一个固定的超参数,用于控制重建的细节程度。损失函数包括深度损失、NOCS损失、类别损失和高斯对齐损失。网络结构采用标准的Transformer架构,并进行了一些针对3D重建任务的优化。
🖼️ 关键图片
📊 实验亮点
OCH3R在ScanNet和CO3Dv2等标准室内基准测试中取得了最先进的性能。在单目深度估计、开放词汇语义分割和仅RGB的类别级6D姿态估计方面,OCH3R均优于现有方法。此外,OCH3R的推理速度比传统多阶段流水线快几个数量级,尤其是在复杂场景中。例如,在包含大量物体的场景中,OCH3R的推理速度可以提高10倍以上。
🎯 应用场景
OCH3R具有广泛的应用前景,包括机器人导航、增强现实、虚拟现实、三维场景理解和自动驾驶等领域。它可以用于构建更智能的机器人,使其能够更好地理解和操作周围环境。在增强现实和虚拟现实中,它可以用于创建更逼真的三维场景。此外,OCH3R还可以用于自动驾驶汽车的环境感知,提高其安全性和可靠性。
📄 摘要(原文)
Object-centric scene understanding is a fundamental challenge in computer vision. Existing approaches often rely on multi-stage pipelines that first apply pre-trained segmentors to extract individual objects, followed by per-object 3D reconstruction. Such methods are computationally expensive, fragile to segmentation errors, and scale poorly with scene complexity. We introduce OCH3R, a unified framework for Object-Centric Holistic 3D Reconstruction from a single RGB image. OCH3R performs one forward pass to simultaneously predict all object instances with their 6D poses and detailed 3D reconstructions. The key idea is a transformer architecture that predicts per-pixel attributes, including CLIP-based category embeddings, metric depth, normalized object coordinates (NOCS), and a fixed number of 3D Gaussians representing each object. To supervise these Gaussian reconstructions, we transform them into canonical space using the predicted 6D poses and align them with pre-rendered canonical ground truth, avoiding costly per-image Gaussian label generation. On standard indoor benchmarks, OCH3R achieves state-of-the-art performance across monocular depth estimation, open-vocabulary semantic segmentation, and RGB-only category-level 6D pose estimation, while producing high-fidelity, editable per-object reconstructions. Crucially, inference is fully feed-forward and scales independently of the number of objects, offering orders-of-magnitude speedups over conventional multi-stage pipelines in cluttered scenes.