LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias

作者: Haian Jin, Hanwen Jiang, Hao Tan, Kai Zhang, Sai Bi, Tianyuan Zhang, Fujun Luan, Noah Snavely, Zexiang Xu

分类: cs.CV, cs.GR, cs.LG

发布日期: 2024-10-22 (更新: 2025-04-02)

备注: project page: https://haian-jin.github.io/projects/LVSM/

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

LVSM：一种基于Transformer的极少3D先验知识的大规模视角合成模型

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 Transformer 3D重建 场景表示 深度学习

📋 核心要点

现有新视角合成方法依赖于3D表示或网络设计中的3D先验知识，限制了其泛化性和效率。
LVSM通过Transformer架构，完全数据驱动地学习场景表示，避免了人为设计的3D归纳偏置。
实验表明，LVSM在多个数据集上取得了SOTA性能，且计算资源需求更低，泛化能力更强。

📝 摘要（中文）

我们提出了大规模视角合成模型（LVSM），这是一种新颖的基于Transformer的方法，用于从稀疏视角的输入中进行可扩展和可泛化的新视角合成。我们介绍了两种架构：（1）编码器-解码器LVSM，它将输入图像tokens编码为固定数量的1D潜在tokens，作为完全学习的场景表示，并从中解码新视角的图像；（2）仅解码器LVSM，它直接将输入图像映射到新视角的输出，完全消除了中间场景表示。两种模型都绕过了先前方法中使用的3D归纳偏置——从3D表示（例如，NeRF，3DGS）到网络设计（例如，极线投影，平面扫描）——采用完全数据驱动的方法解决新视角合成问题。虽然编码器-解码器模型由于其独立的潜在表示而提供更快的推理速度，但仅解码器LVSM实现了卓越的质量、可扩展性和零样本泛化，优于先前的最先进方法1.5到3.5 dB PSNR。跨多个数据集的综合评估表明，两种LVSM变体都实现了最先进的新视角合成质量。值得注意的是，即使使用减少的计算资源（1-2个GPU），我们的模型也超越了所有先前的方法。

🔬 方法详解

问题定义：现有新视角合成方法，如NeRF和3DGS，依赖于显式的3D场景表示或网络结构中的3D几何先验知识（如极线几何约束）。这些先验知识虽然在一定程度上提高了性能，但也限制了模型的泛化能力和对复杂场景的适应性。此外，某些方法计算复杂度高，难以扩展到大规模场景。

核心思路：LVSM的核心思想是尽可能减少对3D先验知识的依赖，通过Transformer架构直接学习输入图像到新视角图像的映射关系。通过完全数据驱动的方式，让模型自动学习场景的内在结构和几何关系，从而提高泛化能力和适应性。

技术框架：LVSM包含两种架构：编码器-解码器结构和仅解码器结构。编码器-解码器结构首先将输入图像编码为一组潜在的tokens，然后使用解码器从这些tokens生成新视角的图像。仅解码器结构则直接将输入图像映射到新视角的图像，完全消除了中间场景表示。两种结构都基于Transformer架构，利用自注意力机制学习图像之间的关系。

关键创新：LVSM最重要的创新在于其极少3D先验知识的设计理念。与以往方法不同，LVSM避免了显式的3D表示和人为设计的几何约束，而是通过Transformer架构从数据中学习场景的结构。这种方法使得模型具有更强的泛化能力和适应性。

关键设计：LVSM的关键设计包括：1）使用Transformer架构进行图像编码和解码；2）设计了两种不同的架构（编码器-解码器和仅解码器），以探索不同的场景表示方式；3）使用自注意力机制学习图像之间的关系；4）通过大量数据进行训练，使模型能够学习到场景的内在结构。

🖼️ 关键图片

📊 实验亮点

LVSM在多个数据集上取得了SOTA性能，例如，在某些数据集上，仅解码器LVSM比之前的SOTA方法提高了1.5到3.5 dB PSNR。更重要的是，LVSM在计算资源需求较低的情况下（1-2个GPU）超越了所有先前的方法，展示了其高效性和可扩展性。实验结果表明，LVSM在泛化能力方面也优于以往方法。

🎯 应用场景

LVSM具有广泛的应用前景，包括虚拟现实、增强现实、机器人导航、自动驾驶、游戏开发等领域。它可以用于生成高质量的新视角图像，从而提高用户体验和系统的感知能力。此外，LVSM的泛化能力使其能够应用于各种不同的场景，具有很高的实际价值。

📄 摘要（原文）

We propose the Large View Synthesis Model (LVSM), a novel transformer-based approach for scalable and generalizable novel view synthesis from sparse-view inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which encodes input image tokens into a fixed number of 1D latent tokens, functioning as a fully learned scene representation, and decodes novel-view images from them; and (2) a decoder-only LVSM, which directly maps input images to novel-view outputs, completely eliminating intermediate scene representations. Both models bypass the 3D inductive biases used in previous methods -- from 3D representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar projections, plane sweeps) -- addressing novel view synthesis with a fully data-driven approach. While the encoder-decoder model offers faster inference due to its independent latent representation, the decoder-only LVSM achieves superior quality, scalability, and zero-shot generalization, outperforming previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive evaluations across multiple datasets demonstrate that both LVSM variants achieve state-of-the-art novel view synthesis quality. Notably, our models surpass all previous methods even with reduced computational resources (1-2 GPUs). Please see our website for more details: https://haian-jin.github.io/projects/LVSM/ .

LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理