ExScene: Free-View 3D Scene Reconstruction with Gaussian Splatting from a Single Image
作者: Tianyi Gong, Boyan Li, Yifei Zhong, Fangxin Wang
分类: cs.CV
发布日期: 2025-03-31
备注: ICME 2025
💡 一句话要点
ExScene:基于单张图像和高斯溅射的自由视角3D场景重建
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 单视图重建 3D场景重建 高斯溅射 扩散模型 全景图像 多模态学习 深度估计
📋 核心要点
- 现有单视图3D重建方法通常受限于窄视野和低一致性的重建结果,难以泛化到沉浸式场景。
- ExScene通过多模态扩散模型生成全局一致的全景图像,并结合全景深度估计和3D高斯溅射技术进行重建。
- 实验结果表明,ExScene在单视图场景重建任务上显著优于现有技术,实现了更高质量的沉浸式场景重建。
📝 摘要(中文)
针对增强现实和虚拟现实应用对沉浸式3D场景日益增长的需求,本文提出ExScene,一个从单张图像重建沉浸式3D场景的两阶段流程。ExScene设计了一个新颖的多模态扩散模型,用于生成高保真且全局一致的全景图像。然后,开发了一种全景深度估计方法,从全景图像中计算几何信息,并将几何信息与高保真全景图像相结合,以训练初始的3D高斯溅射(3DGS)模型。随后,引入了一种基于2D稳定视频扩散先验的GS细化技术,将相机轨迹一致性和颜色-几何先验添加到扩散的去噪过程中,以提高图像序列中的颜色和空间一致性。这些细化的序列随后被用于微调初始的3DGS模型,从而提高重建质量。实验结果表明,ExScene仅使用单张图像即可实现一致且沉浸式的场景重建,显著超越了最先进的基线方法。
🔬 方法详解
问题定义:现有单视图3D场景重建方法依赖于有限的先验知识,导致重建的3D场景一致性差,视野范围窄,难以满足沉浸式体验的需求。这些方法难以从单张图像中推断出完整的3D结构和纹理信息,尤其是在遮挡和缺乏几何信息的区域。
核心思路:ExScene的核心思路是利用多模态扩散模型生成高质量的全景图像,从而弥补单视图输入的不足。通过将全景图像作为中间表示,可以更全面地捕捉场景的全局结构和纹理信息。然后,结合全景深度估计和3D高斯溅射技术,将全景图像转换为高质量的3D场景。
技术框架:ExScene包含两个主要阶段:1) 全景图像生成:使用多模态扩散模型,从单张输入图像生成高保真且全局一致的全景图像。该模型结合了图像和文本信息,以生成更逼真的全景图。2) 3D场景重建与优化:首先,从全景图像中估计深度信息,然后使用深度信息初始化一个3D高斯溅射模型。最后,使用基于2D稳定视频扩散先验的GS细化技术,进一步优化3D高斯溅射模型,提高重建质量。
关键创新:ExScene的关键创新在于:1) 提出了一种新颖的多模态扩散模型,用于生成高质量的全景图像。2) 引入了一种基于2D稳定视频扩散先验的GS细化技术,通过相机轨迹一致性和颜色-几何先验,提高了重建场景的颜色和空间一致性。与现有方法相比,ExScene能够从单张图像中重建出更完整、更一致的3D场景。
关键设计:在全景图像生成阶段,多模态扩散模型使用了图像编码器和文本编码器,将输入图像和文本描述转换为潜在表示,然后使用扩散模型生成全景图像。在GS细化阶段,使用了相机轨迹一致性损失和颜色-几何先验损失,以约束3D高斯溅射模型的优化过程。具体的损失函数形式和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
ExScene在单视图3D场景重建任务上取得了显著的性能提升,实验结果表明,ExScene能够生成比现有方法更完整、更一致的3D场景。通过定量评估和定性比较,ExScene在多个指标上超越了最先进的基线方法,证明了其在单视图3D场景重建方面的优越性。具体的性能数据和对比结果在论文的实验部分有详细展示。
🎯 应用场景
ExScene技术可广泛应用于增强现实(AR)、虚拟现实(VR)、游戏开发、室内设计、文物保护等领域。例如,用户可以使用手机拍摄一张照片,即可快速生成一个可交互的3D场景,用于AR/VR体验或游戏开发。该技术还可以用于重建历史遗迹的3D模型,实现文物的数字化保护和展示。未来,ExScene有望成为一种便捷高效的3D内容生成工具,推动相关产业的发展。
📄 摘要(原文)
The increasing demand for augmented and virtual reality applications has highlighted the importance of crafting immersive 3D scenes from a simple single-view image. However, due to the partial priors provided by single-view input, existing methods are often limited to reconstruct low-consistency 3D scenes with narrow fields of view from single-view input. These limitations make them less capable of generalizing to reconstruct immersive scenes. To address this problem, we propose ExScene, a two-stage pipeline to reconstruct an immersive 3D scene from any given single-view image. ExScene designs a novel multimodal diffusion model to generate a high-fidelity and globally consistent panoramic image. We then develop a panoramic depth estimation approach to calculate geometric information from panorama, and we combine geometric information with high-fidelity panoramic image to train an initial 3D Gaussian Splatting (3DGS) model. Following this, we introduce a GS refinement technique with 2D stable video diffusion priors. We add camera trajectory consistency and color-geometric priors into the denoising process of diffusion to improve color and spatial consistency across image sequences. These refined sequences are then used to fine-tune the initial 3DGS model, leading to better reconstruction quality. Experimental results demonstrate that our ExScene achieves consistent and immersive scene reconstruction using only single-view input, significantly surpassing state-of-the-art baselines.