CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image

📄 arXiv: 2502.12894v2 📥 PDF

作者: Kaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Wei Yang, Lan Xu, Jiayuan Gu, Jingyi Yu

分类: cs.CV

发布日期: 2025-02-18 (更新: 2025-05-13)

备注: Project Page: https://sites.google.com/view/cast4


💡 一句话要点

CAST:提出组件对齐的单RGB图像三维场景重建方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting)

关键词: 三维场景重建 单图像重建 对象关系建模 物理感知 GPT模型

📋 核心要点

  1. 现有单RGB图像三维场景重建方法在特定领域受限,或生成低质量对象,难以满足实际需求。
  2. CAST通过提取2D分割和相对深度,利用GPT分析对象关系,并结合遮挡感知的3D生成模型,实现高质量重建。
  3. 该方法通过物理感知校正步骤,优化对象姿态,确保场景的物理一致性和空间连贯性,提升了重建质量。

📝 摘要(中文)

本文提出CAST,一种新颖的单RGB图像三维场景重建与恢复方法。该方法首先从输入图像中提取对象级别的2D分割和相对深度信息,然后使用基于GPT的模型分析对象间的空间关系,从而理解场景中对象之间的关联,确保更连贯的重建。CAST接着采用一个具有遮挡感知的大规模3D生成模型来独立生成每个对象的完整几何体,利用MAE和点云条件化来减轻遮挡和部分对象信息的影响,确保与源图像的几何体和纹理精确对齐。为了将每个对象与场景对齐,对齐生成模型计算必要的变换,从而将生成的网格精确地放置和集成到场景的点云中。最后,CAST结合了一个物理感知的校正步骤,该步骤利用细粒度的关系图来生成约束图,指导对象姿态的优化,确保物理一致性和空间连贯性。通过使用有符号距离场(SDF),该模型有效地解决了遮挡、对象穿透和浮动对象等问题,确保生成的场景准确反映真实世界的物理交互。CAST可应用于机器人领域,实现高效的实物到仿真工作流程,并为机器人系统提供逼真、可扩展的仿真环境。

🔬 方法详解

问题定义:单RGB图像三维场景重建旨在从单一图像中恢复场景的完整3D结构。现有方法通常在处理复杂场景、遮挡以及保证对象间物理关系方面存在不足,导致重建质量不高,难以应用于实际场景。现有方法的痛点在于难以同时兼顾对象几何细节的准确性和场景整体的物理合理性。

核心思路:CAST的核心思路是将场景重建分解为对象级别的重建和对象间的关系建模两个步骤。首先独立生成高质量的对象几何体,然后通过学习对象间的空间关系和物理约束,将这些对象合理地组装成一个完整的场景。这种分解策略降低了重建的复杂度,并允许利用大规模3D生成模型来提升对象几何体的质量。

技术框架:CAST的整体框架包含以下几个主要模块:1) 2D分割和相对深度估计模块,用于从输入图像中提取对象级别的语义信息和深度信息;2) 基于GPT的对象关系分析模块,用于学习对象之间的空间关系;3) 遮挡感知的3D对象生成模块,用于独立生成每个对象的完整几何体;4) 对象对齐模块,用于将生成的对象放置到场景中,并与图像对齐;5) 物理感知的校正模块,用于优化对象姿态,确保场景的物理一致性。

关键创新:CAST的关键创新在于:1) 利用GPT模型进行对象间关系建模,从而更好地理解场景的结构;2) 采用遮挡感知的3D对象生成模型,提升了在遮挡情况下对象重建的质量;3) 引入物理感知的校正步骤,确保重建场景的物理合理性。与现有方法相比,CAST能够生成更高质量、更逼真的三维场景。

关键设计:在3D对象生成模块中,使用了MAE和点云条件化来减轻遮挡的影响。在物理感知的校正模块中,构建了一个细粒度的关系图,并将其转化为约束图,用于指导对象姿态的优化。损失函数的设计也考虑了对象间的物理关系,例如避免对象穿透和浮动。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了CAST在三维场景重建方面的有效性。实验结果表明,CAST在重建质量和物理合理性方面均优于现有方法。具体来说,CAST能够生成更完整、更准确的对象几何体,并能够更好地处理遮挡和对象间的物理关系。定量指标和定性结果均表明CAST具有显著的优势。

🎯 应用场景

CAST可广泛应用于机器人领域,例如用于创建逼真的仿真环境,加速机器人算法的开发和测试。此外,该方法还可以应用于虚拟现实、增强现实、游戏开发等领域,为用户提供更沉浸式的体验。通过将真实场景快速转换为高质量的3D模型,CAST能够赋能各种需要场景理解和交互的应用。

📄 摘要(原文)

Recovering high-quality 3D scenes from a single RGB image is a challenging task in computer graphics. Current methods often struggle with domain-specific limitations or low-quality object generation. To address these, we propose CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image), a novel method for 3D scene reconstruction and recovery. CAST starts by extracting object-level 2D segmentation and relative depth information from the input image, followed by using a GPT-based model to analyze inter-object spatial relationships. This enables the understanding of how objects relate to each other within the scene, ensuring more coherent reconstruction. CAST then employs an occlusion-aware large-scale 3D generation model to independently generate each object's full geometry, using MAE and point cloud conditioning to mitigate the effects of occlusions and partial object information, ensuring accurate alignment with the source image's geometry and texture. To align each object with the scene, the alignment generation model computes the necessary transformations, allowing the generated meshes to be accurately placed and integrated into the scene's point cloud. Finally, CAST incorporates a physics-aware correction step that leverages a fine-grained relation graph to generate a constraint graph. This graph guides the optimization of object poses, ensuring physical consistency and spatial coherence. By utilizing Signed Distance Fields (SDF), the model effectively addresses issues such as occlusions, object penetration, and floating objects, ensuring that the generated scene accurately reflects real-world physical interactions. CAST can be leveraged in robotics, enabling efficient real-to-simulation workflows and providing realistic, scalable simulation environments for robotic systems.