BetterScene: 3D Scene Synthesis with Representation-Aligned Generative Model
作者: Yuci Han, Charles Toth, John E. Anderson, William J. Shuart, Alper Yilmaz
分类: cs.CV, cs.AI
发布日期: 2026-02-26
💡 一句话要点
提出BetterScene以解决稀疏照片下的新视角合成问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 新视角合成 稀疏照片 稳定视频扩散 变分自编码器 3D高斯点云 视觉基础模型 时间等变正则化 深度学习
📋 核心要点
- 现有的新视角合成方法通常依赖于预训练的扩散模型,导致细节不一致和伪影问题。
- 论文提出了BetterScene,通过引入时间等变正则化和与视觉基础模型对齐的表示来优化扩散模型的潜在空间。
- 在DL3DV-10K数据集上的实验表明,BetterScene在新视角合成任务中表现优于现有方法,提升了合成质量。
📝 摘要(中文)
我们提出了BetterScene,一种利用极其稀疏且不受限制的照片来增强多样化真实场景的新视角合成(NVS)质量的方法。BetterScene利用在数十亿帧上预训练的稳定视频扩散(SVD)模型作为强大基础,旨在减轻伪影并在推理时恢复视角一致的细节。尽管现有方法在新视角合成上取得了显著进展,但通常依赖于现成的预训练扩散先验,仅微调UNet模块,导致细节不一致和伪影。为了解决这些问题,我们研究了扩散模型的潜在空间,并引入了时间等变正则化和与视觉基础模型对齐的表示两个组件,均应用于SVD管道中的变分自编码器(VAE)模块。BetterScene集成了前馈3D高斯点云(3DGS)模型,以生成连续、无伪影且一致的新视角。我们在具有挑战性的DL3DV-10K数据集上进行了评估,并展示了优于现有最先进方法的性能。
🔬 方法详解
问题定义:论文要解决的是在极其稀疏的照片条件下进行新视角合成时,现有方法导致的细节不一致和伪影问题。传统方法通常只微调UNet模块,未能有效利用扩散模型的潜在空间。
核心思路:论文的核心解决思路是通过引入时间等变正则化和与视觉基础模型对齐的表示,优化扩散模型的变分自编码器(VAE)模块,从而提高新视角合成的质量和一致性。
技术框架:整体架构包括稳定视频扩散(SVD)模型作为基础,结合前馈3D高斯点云(3DGS)模型来渲染特征,生成连续且无伪影的新视角。主要模块包括VAE、时间等变正则化和视觉基础模型对齐的表示。
关键创新:最重要的技术创新点在于引入了时间等变正则化和与视觉基础模型对齐的表示,这些创新使得模型能够更好地捕捉和恢复视角一致的细节,显著改善了合成效果。
关键设计:在模型设计中,采用了特定的损失函数来平衡细节恢复与伪影抑制,同时在VAE模块中进行了针对性的参数设置,以优化潜在空间的利用。
🖼️ 关键图片
📊 实验亮点
在DL3DV-10K数据集上的实验结果显示,BetterScene在新视角合成任务中超越了现有最先进的方法,具体表现为合成质量显著提升,伪影减少,且在多个评估指标上均取得了更好的性能。
🎯 应用场景
该研究的潜在应用领域包括虚拟现实、增强现实和电影制作等场景,其中需要高质量的新视角合成。通过提升合成质量,BetterScene能够为用户提供更真实的视觉体验,推动相关技术的发展和应用。
📄 摘要(原文)
We present BetterScene, an approach to enhance novel view synthesis (NVS) quality for diverse real-world scenes using extremely sparse, unconstrained photos. BetterScene leverages the production-ready Stable Video Diffusion (SVD) model pretrained on billions of frames as a strong backbone, aiming to mitigate artifacts and recover view-consistent details at inference time. Conventional methods have developed similar diffusion-based solutions to address these challenges of novel view synthesis. Despite significant improvements, these methods typically rely on off-the-shelf pretrained diffusion priors and fine-tune only the UNet module while keeping other components frozen, which still leads to inconsistent details and artifacts even when incorporating geometry-aware regularizations like depth or semantic conditions. To address this, we investigate the latent space of the diffusion model and introduce two components: (1) temporal equivariance regularization and (2) vision foundation model-aligned representation, both applied to the variational autoencoder (VAE) module within the SVD pipeline. BetterScene integrates a feed-forward 3D Gaussian Splatting (3DGS) model to render features as inputs for the SVD enhancer and generate continuous, artifact-free, consistent novel views. We evaluate on the challenging DL3DV-10K dataset and demonstrate superior performance compared to state-of-the-art methods.