GaussVideoDreamer: 3D Scene Generation with Video Diffusion and Inconsistency-Aware Gaussian Splatting

📄 arXiv: 2504.10001v3 📥 PDF

作者: Junlin Hao, Peiheng Wang, Haoyang Wang, Xinggong Zhang, Zongming Guo

分类: cs.CV

发布日期: 2025-04-14 (更新: 2025-04-16)


💡 一句话要点

GaussVideoDreamer:利用视频扩散和不一致感知高斯溅射进行3D场景生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D场景生成 视频扩散模型 高斯溅射 多视角一致性 几何感知 视频修复 不一致感知

📋 核心要点

  1. 单图3D重建是病态问题,现有方法或泛化性差,或依赖深度信息导致跨视角不一致。
  2. GaussVideoDreamer利用视频扩散模型的时间连贯性,并引入3D高斯溅射一致性掩码,提升多视角一致性。
  3. 实验表明,GaussVideoDreamer在LLaVA-IQA指标上提升32%,速度提升2倍,且在不同场景下表现稳健。

📝 摘要(中文)

单图像3D场景重建由于其固有的不适定性和有限的输入约束而面临重大挑战。最近的研究探索了两个有希望的方向:在3D一致数据集上训练的多视角生成模型,但难以进行分布外泛化;以及3D场景修复和补全框架,但由于它们完全依赖于深度数据或3D平滑性,因此存在跨视角不一致和次优的误差处理,最终降低了输出质量和计算性能。基于这些方法,我们提出了GaussVideoDreamer,它通过弥合图像、视频和3D生成之间的差距来推进生成多媒体方法,并通过两个关键创新整合它们的优势:(1)一种渐进式视频修复策略,利用时间连贯性来提高多视角一致性和更快的收敛速度。(2)一个3D高斯溅射一致性掩码,以3D一致的多视角证据指导视频扩散。我们的流程结合了三个核心组件:几何感知初始化协议、不一致感知高斯溅射和渐进式视频修复策略。实验结果表明,与现有方法相比,我们的方法实现了高32%的LLaVA-IQA分数和至少2倍的加速,同时保持了跨不同场景的稳健性能。

🔬 方法详解

问题定义:单图像3D场景重建是一个不适定问题,现有方法主要存在两个痛点。一是基于多视角生成模型的方法,虽然在3D一致的数据集上训练,但泛化能力较弱,难以处理分布外的场景。二是基于3D场景修复和补全的方法,过度依赖深度信息或3D平滑性假设,导致跨视角不一致,并且误差处理能力较差,最终影响重建质量和计算效率。

核心思路:GaussVideoDreamer的核心思路是结合视频扩散模型和3D高斯溅射的优势,利用视频的时间连贯性来提高多视角一致性,并使用3D高斯溅射生成的一致性掩码来引导视频扩散过程。通过这种方式,可以克服单图像3D重建的不适定性,并提高重建质量和效率。

技术框架:GaussVideoDreamer的整体框架包含三个主要组成部分:1) 几何感知初始化协议:用于初始化3D场景的几何结构,为后续的视频扩散提供基础。2) 不一致感知高斯溅射:利用高斯溅射技术生成3D场景,并显式地建模和处理跨视角的不一致性。3) 渐进式视频修复策略:利用视频扩散模型,逐步修复和完善3D场景,并利用时间连贯性提高多视角一致性。

关键创新:GaussVideoDreamer的关键创新在于:1) 提出了渐进式视频修复策略,利用视频的时间连贯性来提高多视角一致性,这与传统的单图像或多图像重建方法不同。2) 引入了3D高斯溅射一致性掩码,用于引导视频扩散过程,确保生成的3D场景在不同视角下保持一致。

关键设计:在渐进式视频修复策略中,采用了多阶段的修复过程,逐步提高重建质量。在3D高斯溅射一致性掩码的设计中,考虑了不同视角的几何信息和纹理信息,以生成更准确的一致性掩码。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GaussVideoDreamer在实验中取得了显著的性能提升。与现有方法相比,GaussVideoDreamer在LLaVA-IQA指标上提高了32%,并且速度提升了至少2倍。此外,GaussVideoDreamer在不同场景下都表现出稳健的性能,表明其具有良好的泛化能力。

🎯 应用场景

GaussVideoDreamer在游戏开发、虚拟现实、增强现实、机器人导航等领域具有广泛的应用前景。它可以用于快速生成高质量的3D场景,降低3D内容制作的成本和时间。此外,该方法还可以用于3D场景的修复和补全,例如修复损坏的3D模型或补全缺失的3D场景。

📄 摘要(原文)

Single-image 3D scene reconstruction presents significant challenges due to its inherently ill-posed nature and limited input constraints. Recent advances have explored two promising directions: multiview generative models that train on 3D consistent datasets but struggle with out-of-distribution generalization, and 3D scene inpainting and completion frameworks that suffer from cross-view inconsistency and suboptimal error handling, as they depend exclusively on depth data or 3D smoothness, which ultimately degrades output quality and computational performance. Building upon these approaches, we present GaussVideoDreamer, which advances generative multimedia approaches by bridging the gap between image, video, and 3D generation, integrating their strengths through two key innovations: (1) A progressive video inpainting strategy that harnesses temporal coherence for improved multiview consistency and faster convergence. (2) A 3D Gaussian Splatting consistency mask to guide the video diffusion with 3D consistent multiview evidence. Our pipeline combines three core components: a geometry-aware initialization protocol, Inconsistency-Aware Gaussian Splatting, and a progressive video inpainting strategy. Experimental results demonstrate that our approach achieves 32% higher LLaVA-IQA scores and at least 2x speedup compared to existing methods while maintaining robust performance across diverse scenes.