DVSM: Decoder-only View Synthesis Model Done Right

作者: Cheng Sun, Jaesung Choe, Min-Hung Chen, Ryo Hachiuma, Yu-Chiang Frank Wang

分类: cs.CV

发布日期: 2026-05-28

备注: Code at https://github.com/NVLabs/dvsm

💡 一句话要点

DVSM：仅解码器视角合成模型，性能超越传统编码器-解码器结构

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 新视角合成 仅解码器模型 KV-cache 权重共享 Transformer 基础模型先验 图像渲染

📋 核心要点

现有视角合成模型依赖编码器-解码器结构，重建和渲染分离，参数量大，效率受限。
DVSM采用仅解码器架构，将场景隐式表示为KV-cache，减少参数量，提升渲染效率。
DVSM通过共享重建和渲染网络的权重，并结合基础模型先验，显著提升了新视角合成的质量。

📝 摘要（中文）

最近的大型视角合成模型（LVSM）倾向于采用编码器-解码器架构，将重建和渲染分离到不同的网络中。本文重新审视了这种设计。通过受控实验表明，仅解码器架构（将场景隐式地表示为KV-cache）在相同的渲染复杂度下，优于编码器-解码器变体，同时使用的参数更少。进一步的分析表明，颜色输入重建网络和仅相机渲染网络之间共享权重可以更好地对齐它们在相同视点的特征，从而促进图像合成。基于这一发现，我们的模型DVSM进一步结合了基础模型先验和分阶段的patch大小调整，以实现改进的效率-质量权衡。我们的结果为新视角合成建立了新的state-of-the-art，在多个基准测试中，在密集输入视图下，甚至优于针对每个场景优化的3DGS。

🔬 方法详解

问题定义：现有的大型视角合成模型（LVSM）通常采用编码器-解码器架构，将场景的重建和渲染过程分离到两个独立的网络中。这种设计增加了模型的复杂度和参数量，同时也可能导致重建和渲染特征的不对齐，从而影响最终的合成质量。因此，如何设计一个更高效、更紧凑的视角合成模型，同时保证甚至提升合成质量，是一个重要的研究问题。

核心思路：本文的核心思路是采用一个仅解码器的架构，将场景信息隐式地存储在KV-cache中，从而避免了显式的场景重建过程。通过这种方式，可以显著减少模型的参数量，并提高渲染效率。此外，本文还提出了一种权重共享机制，将颜色输入重建网络和仅相机渲染网络的权重进行共享，从而更好地对齐它们在相同视点的特征，促进图像合成。

技术框架：DVSM模型的整体架构是一个仅解码器的Transformer网络。该网络接收相机参数作为输入，并利用KV-cache存储场景信息。模型包含两个主要模块：颜色输入重建网络和仅相机渲染网络。颜色输入重建网络负责从输入图像中提取特征，并将其存储到KV-cache中。仅相机渲染网络则负责根据相机参数和KV-cache中的场景信息，生成新的视角图像。为了进一步提高模型的性能，DVSM还结合了基础模型先验和分阶段的patch大小调整。

关键创新：DVSM最重要的技术创新点在于采用了仅解码器的架构，并结合了权重共享机制。与传统的编码器-解码器架构相比，仅解码器架构可以显著减少模型的参数量，并提高渲染效率。权重共享机制则可以更好地对齐重建和渲染特征，从而提高合成质量。此外，DVSM还结合了基础模型先验和分阶段的patch大小调整，进一步提高了模型的性能。

关键设计：DVSM的关键设计包括：1) 使用Transformer解码器作为核心渲染模块；2) 采用KV-cache存储场景信息；3) 在颜色输入重建网络和仅相机渲染网络之间共享权重；4) 结合基础模型先验，例如CLIP；5) 使用分阶段的patch大小调整，以实现更好的效率-质量权衡。损失函数方面，主要采用L1损失和感知损失，以保证合成图像的质量和真实感。

🖼️ 关键图片

📊 实验亮点

DVSM在多个新视角合成基准测试中取得了state-of-the-art的结果。例如，在Local Light Field Fusion数据集上，DVSM的PSNR指标超过了之前的最佳方法，并且在某些情况下，甚至优于针对每个场景优化的3DGS方法。此外，DVSM的参数量明显小于传统的编码器-解码器模型，表明其具有更高的效率。

🎯 应用场景

DVSM在虚拟现实、增强现实、自动驾驶、游戏开发等领域具有广泛的应用前景。它可以用于生成高质量的新视角图像，从而提升用户体验。例如，在虚拟现实中，DVSM可以用于生成用户头部运动时的新视角图像，从而提供更逼真的沉浸式体验。在自动驾驶中，DVSM可以用于生成不同视角下的道路图像，从而帮助自动驾驶系统更好地理解周围环境。

📄 摘要（原文）

Recent Large View Synthesis Models (LVSMs) advocate an encoder-decoder architecture that separates reconstruction and rendering into distinct networks. We re-examine this design. Through controlled experiments, we show that a decoder-only architecture, which represents scenes implicitly as a KV-cache, outperforms encoder-decoder variants while using fewer parameters at identical rendering complexity. Further analysis shows that sharing weights between the color-input reconstruction network and the camera-only rendering network better aligns their features at the same viewpoint, facilitating image synthesis. Building on this finding, our model, dubbed DVSM, further incorporates foundation model priors and stage-wise patch sizing for an improved efficiency-quality tradeoff. Our results establish a new state of the art for novel-view synthesis across multiple benchmarks, in some cases even outperforming per-scene-optimized 3DGS under dense input views.

DVSM: Decoder-only View Synthesis Model Done Right

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理