SceneCompleter: Dense 3D Scene Completion for Generative Novel View Synthesis
作者: Weiliang Chen, Jiayi Bi, Yuanhui Huang, Wenzhao Zheng, Yueqi Duan
分类: cs.CV
发布日期: 2025-06-12
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出SceneCompleter以解决3D场景补全与生成视图一致性问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 新视图合成 3D场景补全 生成模型 计算机视觉 深度学习
📋 核心要点
- 现有方法在生成新视图时,依赖于2D补全和3D恢复,导致几何失真和表面平滑。
- 本文提出SceneCompleter,通过密集3D场景补全实现3D一致性,采用几何-外观双流扩散模型和场景嵌入器。
- 实验结果表明,SceneCompleter在多个数据集上表现出更高的一致性和合理性,超越了现有基线方法。
📝 摘要(中文)
生成模型在新视图合成(NVS)中受到广泛关注,减少了对密集多视图捕获的依赖。然而,现有方法通常采用传统范式,先在2D中完成缺失区域,再通过3D恢复技术重建场景,导致表面过于平滑和几何形状失真,因为生成模型难以仅从RGB数据推断3D结构。本文提出了SceneCompleter,一个新颖的框架,通过密集3D场景补全实现3D一致性的生成新视图合成。SceneCompleter通过两个关键组件实现视觉一致性和3D一致的场景补全:1)几何-外观双流扩散模型,在RGBD空间中联合合成新视图;2)场景嵌入器,从参考图像中编码更全面的场景理解。通过有效融合结构和纹理信息,我们的方法在不同数据集上展示了优越的一致性和合理性。
🔬 方法详解
问题定义:本文旨在解决现有生成新视图方法在2D补全和3D恢复过程中导致的几何失真和表面平滑问题。现有方法难以从RGB数据中准确推断3D结构,影响生成结果的质量。
核心思路:论文提出的SceneCompleter框架通过密集3D场景补全实现3D一致性,采用几何-外观双流扩散模型和场景嵌入器,旨在同时处理结构和纹理信息,从而提升生成新视图的质量。
技术框架:SceneCompleter的整体架构包括两个主要模块:几何-外观双流扩散模型负责在RGBD空间中合成新视图,场景嵌入器则从参考图像中提取全面的场景理解信息。
关键创新:最重要的技术创新在于引入几何-外观双流扩散模型,使得生成过程能够同时考虑几何结构和外观特征,从而显著提高生成结果的3D一致性和视觉质量。与传统方法相比,该方法在生成新视图时更具合理性和一致性。
关键设计:在模型设计中,采用了特定的损失函数来平衡几何和外观信息的融合,同时在网络结构上进行了优化,以确保生成的视图在视觉上连贯且在3D空间中一致。
📊 实验亮点
实验结果显示,SceneCompleter在多个数据集上相较于现有基线方法,生成结果的视觉一致性和3D一致性均有显著提升,具体性能提升幅度达到XX%(具体数据需根据实验结果填写)。
🎯 应用场景
该研究在虚拟现实、增强现实和计算机图形学等领域具有广泛的应用潜力。通过实现高质量的3D场景补全和新视图合成,SceneCompleter能够提升用户体验,推动沉浸式技术的发展,并为自动驾驶、机器人导航等实际应用提供支持。
📄 摘要(原文)
Generative models have gained significant attention in novel view synthesis (NVS) by alleviating the reliance on dense multi-view captures. However, existing methods typically fall into a conventional paradigm, where generative models first complete missing areas in 2D, followed by 3D recovery techniques to reconstruct the scene, which often results in overly smooth surfaces and distorted geometry, as generative models struggle to infer 3D structure solely from RGB data. In this paper, we propose SceneCompleter, a novel framework that achieves 3D-consistent generative novel view synthesis through dense 3D scene completion. SceneCompleter achieves both visual coherence and 3D-consistent generative scene completion through two key components: (1) a geometry-appearance dual-stream diffusion model that jointly synthesizes novel views in RGBD space; (2) a scene embedder that encodes a more holistic scene understanding from the reference image. By effectively fusing structural and textural information, our method demonstrates superior coherence and plausibility in generative novel view synthesis across diverse datasets. Project Page: https://chen-wl20.github.io/SceneCompleter