BetterScene: 3D Scene Synthesis with Representation-Aligned Generative Model

📄 arXiv: 2602.22596 📥 PDF

作者: Yuci Han, Charles Toth, John E. Anderson, William J. Shuart, Alper Yilmaz

分类: cs.CV, cs.AI

发布日期: 2026-02-28


💡 一句话要点

提出BetterScene以解决稀疏照片下的新视角合成问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 新视角合成 稳定视频扩散 变分自编码器 3D高斯点云 视觉基础模型

📋 核心要点

  1. 现有的新视角合成方法通常依赖于预训练的扩散模型,导致细节不一致和伪影问题。
  2. BetterScene通过引入时间等变性正则化和视觉基础模型对齐表示,改善了新视角合成的质量。
  3. 在DL3DV-10K数据集上,BetterScene的性能显著优于现有的最先进方法,展示了其有效性。

📝 摘要(中文)

我们提出了BetterScene,一种利用极其稀疏且不受限制的照片来增强多样化真实场景的新视角合成(NVS)质量的方法。BetterScene利用在数十亿帧上预训练的稳定视频扩散(SVD)模型作为强大基础,旨在减轻伪影并在推理时恢复视角一致的细节。尽管现有方法在新视角合成方面取得了显著进展,但通常依赖于现成的预训练扩散先验,仅微调UNet模块,导致细节不一致和伪影。为了解决这一问题,我们探讨了扩散模型的潜在空间,并引入了时间等变性正则化和视觉基础模型对齐表示两个组件,均应用于SVD管道中的变分自编码器(VAE)模块。BetterScene集成了前馈3D高斯点云(3DGS)模型,以渲染特征作为SVD增强器的输入,生成连续、无伪影且一致的新视角。我们在具有挑战性的DL3DV-10K数据集上进行了评估,并展示了优于现有最先进方法的性能。

🔬 方法详解

问题定义:论文要解决的是在极其稀疏且不受限制的照片条件下进行新视角合成时,现有方法常常出现细节不一致和伪影的问题。

核心思路:论文的核心解决思路是通过探讨扩散模型的潜在空间,引入时间等变性正则化和视觉基础模型对齐表示,以提高新视角合成的质量。

技术框架:整体架构包括稳定视频扩散(SVD)模型和变分自编码器(VAE)模块,结合前馈3D高斯点云(3DGS)模型来渲染特征。

关键创新:最重要的技术创新点在于引入了时间等变性正则化和视觉基础模型对齐表示,这与现有方法仅微调UNet模块的做法有本质区别。

关键设计:在设计中,采用了特定的损失函数来优化生成的视角一致性,并通过调整VAE模块的结构来适应新引入的正则化组件。具体参数设置和网络结构细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在DL3DV-10K数据集上的实验结果显示,BetterScene在新视角合成任务中表现优越,相较于现有最先进方法,性能提升幅度达到XX%(具体数据需查阅原文),有效减少了伪影并提高了细节一致性。

🎯 应用场景

该研究的潜在应用领域包括虚拟现实、游戏开发和电影制作等需要高质量场景合成的领域。BetterScene的技术可以帮助生成更真实的场景视图,提升用户体验,并推动相关领域的技术进步。

📄 摘要(原文)

We present BetterScene, an approach to enhance novel view synthesis (NVS) quality for diverse real-world scenes using extremely sparse, unconstrained photos. BetterScene leverages the production-ready Stable Video Diffusion (SVD) model pretrained on billions of frames as a strong backbone, aiming to mitigate artifacts and recover view-consistent details at inference time. Conventional methods have developed similar diffusion-based solutions to address these challenges of novel view synthesis. Despite significant improvements, these methods typically rely on off-the-shelf pretrained diffusion priors and fine-tune only the UNet module while keeping other components frozen, which still leads to inconsistent details and artifacts even when incorporating geometry-aware regularizations like depth or semantic conditions. To address this, we investigate the latent space of the diffusion model and introduce two components: (1) temporal equivariance regularization and (2) vision foundation model-aligned representation, both applied to the variational autoencoder (VAE) module within the SVD pipeline. BetterScene integrates a feed-forward 3D Gaussian Splatting (3DGS) model to render features as inputs for the SVD enhancer and generate continuous, artifact-free, consistent novel views. We evaluate on the challenging DL3DV-10K dataset and demonstrate superior performance compared to state-of-the-art methods.