ExScene: Free-View 3D Scene Reconstruction with Gaussian Splatting from a Single Image

作者: Tianyi Gong, Boyan Li, Yifei Zhong, Fangxin Wang

分类: cs.CV

发布日期: 2025-03-31

备注: ICME 2025

💡 一句话要点

ExScene：基于单张图像和高斯溅射的自由视角3D场景重建

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 单视图重建 3D场景重建 高斯溅射 扩散模型 全景图像 多模态学习 深度估计

📋 核心要点

现有单视图3D重建方法通常受限于窄视野和低一致性的重建结果，难以泛化到沉浸式场景。
ExScene通过多模态扩散模型生成全局一致的全景图像，并结合全景深度估计和3D高斯溅射技术进行重建。
实验结果表明，ExScene在单视图场景重建任务上显著优于现有技术，实现了更高质量的沉浸式场景重建。

📝 摘要（中文）

针对增强现实和虚拟现实应用对沉浸式3D场景日益增长的需求，本文提出ExScene，一个从单张图像重建沉浸式3D场景的两阶段流程。ExScene设计了一个新颖的多模态扩散模型，用于生成高保真且全局一致的全景图像。然后，开发了一种全景深度估计方法，从全景图像中计算几何信息，并将几何信息与高保真全景图像相结合，以训练初始的3D高斯溅射（3DGS）模型。随后，引入了一种基于2D稳定视频扩散先验的GS细化技术，将相机轨迹一致性和颜色-几何先验添加到扩散的去噪过程中，以提高图像序列中的颜色和空间一致性。这些细化的序列随后被用于微调初始的3DGS模型，从而提高重建质量。实验结果表明，ExScene仅使用单张图像即可实现一致且沉浸式的场景重建，显著超越了最先进的基线方法。

🔬 方法详解

问题定义：现有单视图3D场景重建方法依赖于有限的先验知识，导致重建的3D场景一致性差，视野范围窄，难以满足沉浸式体验的需求。这些方法难以从单张图像中推断出完整的3D结构和纹理信息，尤其是在遮挡和缺乏几何信息的区域。

核心思路：ExScene的核心思路是利用多模态扩散模型生成高质量的全景图像，从而弥补单视图输入的不足。通过将全景图像作为中间表示，可以更全面地捕捉场景的全局结构和纹理信息。然后，结合全景深度估计和3D高斯溅射技术，将全景图像转换为高质量的3D场景。

技术框架：ExScene包含两个主要阶段：1) 全景图像生成：使用多模态扩散模型，从单张输入图像生成高保真且全局一致的全景图像。该模型结合了图像和文本信息，以生成更逼真的全景图。2) 3D场景重建与优化：首先，从全景图像中估计深度信息，然后使用深度信息初始化一个3D高斯溅射模型。最后，使用基于2D稳定视频扩散先验的GS细化技术，进一步优化3D高斯溅射模型，提高重建质量。

关键创新：ExScene的关键创新在于：1) 提出了一种新颖的多模态扩散模型，用于生成高质量的全景图像。2) 引入了一种基于2D稳定视频扩散先验的GS细化技术，通过相机轨迹一致性和颜色-几何先验，提高了重建场景的颜色和空间一致性。与现有方法相比，ExScene能够从单张图像中重建出更完整、更一致的3D场景。

关键设计：在全景图像生成阶段，多模态扩散模型使用了图像编码器和文本编码器，将输入图像和文本描述转换为潜在表示，然后使用扩散模型生成全景图像。在GS细化阶段，使用了相机轨迹一致性损失和颜色-几何先验损失，以约束3D高斯溅射模型的优化过程。具体的损失函数形式和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

ExScene在单视图3D场景重建任务上取得了显著的性能提升，实验结果表明，ExScene能够生成比现有方法更完整、更一致的3D场景。通过定量评估和定性比较，ExScene在多个指标上超越了最先进的基线方法，证明了其在单视图3D场景重建方面的优越性。具体的性能数据和对比结果在论文的实验部分有详细展示。

🎯 应用场景

ExScene技术可广泛应用于增强现实（AR）、虚拟现实（VR）、游戏开发、室内设计、文物保护等领域。例如，用户可以使用手机拍摄一张照片，即可快速生成一个可交互的3D场景，用于AR/VR体验或游戏开发。该技术还可以用于重建历史遗迹的3D模型，实现文物的数字化保护和展示。未来，ExScene有望成为一种便捷高效的3D内容生成工具，推动相关产业的发展。

📄 摘要（原文）

The increasing demand for augmented and virtual reality applications has highlighted the importance of crafting immersive 3D scenes from a simple single-view image. However, due to the partial priors provided by single-view input, existing methods are often limited to reconstruct low-consistency 3D scenes with narrow fields of view from single-view input. These limitations make them less capable of generalizing to reconstruct immersive scenes. To address this problem, we propose ExScene, a two-stage pipeline to reconstruct an immersive 3D scene from any given single-view image. ExScene designs a novel multimodal diffusion model to generate a high-fidelity and globally consistent panoramic image. We then develop a panoramic depth estimation approach to calculate geometric information from panorama, and we combine geometric information with high-fidelity panoramic image to train an initial 3D Gaussian Splatting (3DGS) model. Following this, we introduce a GS refinement technique with 2D stable video diffusion priors. We add camera trajectory consistency and color-geometric priors into the denoising process of diffusion to improve color and spatial consistency across image sequences. These refined sequences are then used to fine-tune the initial 3DGS model, leading to better reconstruction quality. Experimental results demonstrate that our ExScene achieves consistent and immersive scene reconstruction using only single-view input, significantly surpassing state-of-the-art baselines.

ExScene: Free-View 3D Scene Reconstruction with Gaussian Splatting from a Single Image

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理