OCH3R: Object-Centric Holistic 3D Reconstruction

作者: Yi Du, Yang You, Xiang Wan, Leonidas Guibas

分类: cs.CV

发布日期: 2026-05-13

💡 一句话要点

OCH3R：单目RGB图像物体中心整体3D重建框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 物体中心重建 3D重建 单目视觉 Transformer 6D姿态估计 场景理解 高斯表示

📋 核心要点

现有方法依赖多阶段流程，计算成本高，易受分割误差影响，且难以扩展到复杂场景。
OCH3R使用Transformer架构，通过单次前向传播，同时预测物体实例的6D姿态和3D重建。
实验表明，OCH3R在多个任务上达到SOTA，并显著提升了推理速度，尤其是在复杂场景中。

📝 摘要（中文）

本文提出OCH3R，一个统一的框架，用于从单张RGB图像进行物体中心的整体3D重建。OCH3R通过一次前向传播同时预测所有物体实例的6D姿态和详细的3D重建。核心思想是使用Transformer架构预测每个像素的属性，包括基于CLIP的类别嵌入、度量深度、归一化物体坐标（NOCS）以及表示每个物体的固定数量的3D高斯分布。为了监督这些高斯重建，我们使用预测的6D姿态将它们转换到规范空间，并与预渲染的规范ground truth对齐，避免了昂贵的逐图像高斯标签生成。在标准室内基准测试中，OCH3R在单目深度估计、开放词汇语义分割和仅RGB的类别级6D姿态估计方面取得了最先进的性能，同时生成了高保真、可编辑的逐物体重建。重要的是，推理是完全前馈的，并且与物体数量无关，与杂乱场景中的传统多阶段流水线相比，提供了数量级的速度提升。

🔬 方法详解

问题定义：现有物体中心的三维场景理解方法通常采用多阶段流程，首先使用预训练的分割器提取单个物体，然后进行逐物体的三维重建。这种方法计算量大，容易受到分割错误的影响，并且难以扩展到包含大量物体的复杂场景。因此，如何高效、准确地从单张RGB图像中重建场景中的所有物体，包括它们的6D姿态和详细的3D模型，是一个重要的挑战。

核心思路：OCH3R的核心思路是采用一种端到端的学习方法，避免了传统多阶段流程中的分割步骤。它通过一个统一的框架，直接从单张RGB图像预测场景中所有物体的6D姿态和3D重建。这种方法利用Transformer架构的强大表示能力，能够同时处理场景中的多个物体，并且具有良好的可扩展性。

技术框架：OCH3R的整体架构是一个基于Transformer的像素级预测网络。该网络以单张RGB图像作为输入，输出每个像素的属性，包括CLIP类别嵌入、度量深度、归一化物体坐标（NOCS）以及一组3D高斯分布，用于表示每个物体。网络包含一个编码器用于提取图像特征，以及一个解码器用于预测像素属性。预测的3D高斯分布通过预测的6D姿态转换到规范空间，并与预渲染的规范ground truth对齐，用于监督训练。

关键创新：OCH3R的关键创新在于其统一的端到端框架，能够同时预测所有物体的6D姿态和3D重建。与传统方法相比，它避免了昂贵的分割步骤，并且具有更好的可扩展性。此外，使用3D高斯分布表示物体，并将其转换到规范空间进行监督，避免了逐图像生成高斯标签的需要，提高了训练效率。

关键设计：OCH3R使用CLIP模型提取类别嵌入，以实现开放词汇语义分割。使用度量深度和NOCS坐标来约束物体的几何形状。3D高斯分布的数量是一个固定的超参数，用于控制重建的细节程度。损失函数包括深度损失、NOCS损失、类别损失和高斯对齐损失。网络结构采用标准的Transformer架构，并进行了一些针对3D重建任务的优化。

🖼️ 关键图片

📊 实验亮点

OCH3R在ScanNet和CO3Dv2等标准室内基准测试中取得了最先进的性能。在单目深度估计、开放词汇语义分割和仅RGB的类别级6D姿态估计方面，OCH3R均优于现有方法。此外，OCH3R的推理速度比传统多阶段流水线快几个数量级，尤其是在复杂场景中。例如，在包含大量物体的场景中，OCH3R的推理速度可以提高10倍以上。

🎯 应用场景

OCH3R具有广泛的应用前景，包括机器人导航、增强现实、虚拟现实、三维场景理解和自动驾驶等领域。它可以用于构建更智能的机器人，使其能够更好地理解和操作周围环境。在增强现实和虚拟现实中，它可以用于创建更逼真的三维场景。此外，OCH3R还可以用于自动驾驶汽车的环境感知，提高其安全性和可靠性。

📄 摘要（原文）

Object-centric scene understanding is a fundamental challenge in computer vision. Existing approaches often rely on multi-stage pipelines that first apply pre-trained segmentors to extract individual objects, followed by per-object 3D reconstruction. Such methods are computationally expensive, fragile to segmentation errors, and scale poorly with scene complexity. We introduce OCH3R, a unified framework for Object-Centric Holistic 3D Reconstruction from a single RGB image. OCH3R performs one forward pass to simultaneously predict all object instances with their 6D poses and detailed 3D reconstructions. The key idea is a transformer architecture that predicts per-pixel attributes, including CLIP-based category embeddings, metric depth, normalized object coordinates (NOCS), and a fixed number of 3D Gaussians representing each object. To supervise these Gaussian reconstructions, we transform them into canonical space using the predicted 6D poses and align them with pre-rendered canonical ground truth, avoiding costly per-image Gaussian label generation. On standard indoor benchmarks, OCH3R achieves state-of-the-art performance across monocular depth estimation, open-vocabulary semantic segmentation, and RGB-only category-level 6D pose estimation, while producing high-fidelity, editable per-object reconstructions. Crucially, inference is fully feed-forward and scales independently of the number of objects, offering orders-of-magnitude speedups over conventional multi-stage pipelines in cluttered scenes.

OCH3R: Object-Centric Holistic 3D Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理