SCube: Instant Large-Scale Scene Reconstruction using VoxSplats
作者: Xuanchi Ren, Yifan Lu, Hanxue Liang, Zhangjie Wu, Huan Ling, Mike Chen, Sanja Fidler, Francis Williams, Jiahui Huang
分类: cs.CV, cs.AI, cs.GR
发布日期: 2024-10-26
备注: NeurIPS 2024. Project page: https://research.nvidia.com/labs/toronto-ai/scube/
💡 一句话要点
SCube:利用VoxSplats实现大规模场景的快速重建
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 场景重建 3D高斯函数 扩散模型 稀疏体素 自动驾驶
📋 核心要点
- 现有场景重建方法依赖逐场景优化或低分辨率几何先验,导致重建质量差或需要密集视角。
- SCube提出VoxSplat表示,结合高分辨率稀疏体素和3D高斯函数,实现高效场景编码。
- SCube利用分层体素潜在扩散模型和外观预测网络,从少量图像快速生成高质量场景。
📝 摘要(中文)
SCube是一种新颖的方法,用于从稀疏的姿态图像集中重建大规模3D场景(几何、外观和语义)。该方法使用一种名为VoxSplat的新型表示来编码重建的场景,VoxSplat是一组在高分辨率稀疏体素支架上支持的3D高斯函数。为了从图像重建VoxSplat,我们采用了一个分层体素潜在扩散模型,该模型以输入图像为条件,然后是一个前馈外观预测模型。扩散模型以由粗到精的方式逐步生成高分辨率网格,外观网络预测每个体素内的一组高斯函数。SCube仅需3张非重叠的输入图像,即可在20秒内生成数百万个高斯函数,覆盖1024^3体素网格和数百米的范围。过去从图像重建场景的工作要么依赖于逐场景优化,无法重建远离输入视角的场景(因此需要密集的视角覆盖作为输入),要么利用基于低分辨率模型的几何先验,从而产生模糊的结果。相比之下,SCube利用高分辨率稀疏网络,并从少量视角产生清晰的输出。我们使用Waymo自动驾驶数据集在3D重建方面展示了SCube相对于现有技术的优越性,并展示了其应用,例如LiDAR模拟和文本到场景生成。
🔬 方法详解
问题定义:论文旨在解决从少量图像快速重建大规模3D场景的问题。现有方法要么需要密集的图像覆盖,要么依赖低分辨率模型,导致重建质量差,无法满足大规模场景的需求。
核心思路:论文的核心思路是使用一种新的场景表示方法VoxSplat,它结合了高分辨率稀疏体素和3D高斯函数。稀疏体素用于组织场景结构,而3D高斯函数用于表示局部几何和外观信息。这种表示方法既能保持场景的细节,又能实现高效的渲染和重建。
技术框架:SCube的整体框架包含两个主要阶段:1) 分层体素潜在扩散模型:该模型以输入图像为条件,逐步生成高分辨率的稀疏体素网格。2) 外观预测网络:该网络预测每个体素内的一组3D高斯函数,包括其位置、形状和颜色等参数。这两个阶段共同作用,从少量图像重建出高质量的3D场景。
关键创新:SCube的关键创新在于VoxSplat表示和分层体素潜在扩散模型。VoxSplat表示能够高效地编码大规模场景的几何和外观信息,而分层体素潜在扩散模型能够从少量图像中生成高分辨率的场景结构。与现有方法相比,SCube能够更好地平衡重建质量和计算效率。
关键设计:扩散模型采用U-Net结构,并使用多尺度特征融合来提高重建质量。外观预测网络使用MLP结构,并采用L1损失和感知损失来优化高斯函数的参数。此外,论文还使用了一种稀疏体素哈希技术来加速体素网格的生成和渲染。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SCube在Waymo自动驾驶数据集上取得了显著的性能提升。仅使用3张非重叠的输入图像,SCube即可在20秒内生成数百万个高斯函数,覆盖1024^3体素网格和数百米的范围。与现有方法相比,SCube能够生成更清晰、更真实的3D场景。
🎯 应用场景
SCube具有广泛的应用前景,包括自动驾驶、机器人导航、虚拟现实和增强现实等领域。它可以用于生成高质量的3D地图,模拟LiDAR数据,以及创建逼真的虚拟环境。此外,SCube还可以用于文本到场景生成,为用户提供更加灵活和自然的场景创建方式。
📄 摘要(原文)
We present SCube, a novel method for reconstructing large-scale 3D scenes (geometry, appearance, and semantics) from a sparse set of posed images. Our method encodes reconstructed scenes using a novel representation VoxSplat, which is a set of 3D Gaussians supported on a high-resolution sparse-voxel scaffold. To reconstruct a VoxSplat from images, we employ a hierarchical voxel latent diffusion model conditioned on the input images followed by a feedforward appearance prediction model. The diffusion model generates high-resolution grids progressively in a coarse-to-fine manner, and the appearance network predicts a set of Gaussians within each voxel. From as few as 3 non-overlapping input images, SCube can generate millions of Gaussians with a 1024^3 voxel grid spanning hundreds of meters in 20 seconds. Past works tackling scene reconstruction from images either rely on per-scene optimization and fail to reconstruct the scene away from input views (thus requiring dense view coverage as input) or leverage geometric priors based on low-resolution models, which produce blurry results. In contrast, SCube leverages high-resolution sparse networks and produces sharp outputs from few views. We show the superiority of SCube compared to prior art using the Waymo self-driving dataset on 3D reconstruction and demonstrate its applications, such as LiDAR simulation and text-to-scene generation.