ViewSplat: View-Adaptive Dynamic Gaussian Splatting for Feed-Forward Synthesis

📄 arXiv: 2603.25265v1 📥 PDF

作者: Moonyeon Jeong, Seunggi Min, Suhyeon Lee, Hongje Seong

分类: cs.CV

发布日期: 2026-03-26

备注: 24 pages, 10 figures


💡 一句话要点

ViewSplat:提出视角自适应动态高斯溅射,实现快速高保真新视角合成

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 3D高斯溅射 动态溅射 视角自适应 前馈网络

📋 核心要点

  1. 现有前馈3D高斯溅射方法在新视角合成中存在保真度瓶颈,难以用静态高斯基元满足所有视角。
  2. ViewSplat采用视角自适应动态溅射,通过动态MLP预测视角相关的残差更新,优化高斯基元属性。
  3. 实验表明,ViewSplat在保持快速推理和实时渲染速度的同时,实现了最先进的保真度。

📝 摘要(中文)

本文提出了一种视角自适应的3D高斯溅射网络ViewSplat,用于从无位姿图像中合成新视角。虽然最近的前馈3D高斯溅射通过绕过逐场景优化显著加速了3D场景重建,但仍然存在根本的保真度差距。我们将此瓶颈归因于单步前馈网络在回归满足所有视角的静态高斯基元方面的有限能力。为了解决这个限制,我们将范式从静态基元回归转变为视角自适应动态溅射。我们的pipeline学习一种视角可适应的潜在表示,而不是刚性的高斯表示。具体来说,ViewSplat最初预测基础高斯基元以及动态MLP的权重。在渲染过程中,这些MLP将目标视角坐标作为输入,并预测每个高斯属性(即3D位置、尺度、旋转、不透明度和颜色)的视角相关残差更新。这种机制,我们称之为视角自适应动态溅射,允许每个基元纠正初始估计误差,有效地捕获高保真外观。大量实验表明,ViewSplat在保持快速推理(17 FPS)和实时渲染(154 FPS)的同时,实现了最先进的保真度。

🔬 方法详解

问题定义:论文旨在解决新视角合成中,现有前馈3D高斯溅射方法由于使用静态高斯基元表示场景,导致在不同视角下保真度不足的问题。现有方法难以捕捉复杂的视角相关效应,限制了合成图像的质量。

核心思路:核心思路是将静态的高斯基元表示替换为视角自适应的动态表示。通过引入动态MLP,根据目标视角对高斯基元的属性进行动态调整,从而使每个基元能够更好地适应不同的视角,提高合成图像的保真度。

技术框架:ViewSplat的整体框架包含两个主要阶段:基元预测阶段和动态溅射阶段。在基元预测阶段,网络预测初始的高斯基元属性和动态MLP的权重。在动态溅射阶段,动态MLP以目标视角坐标作为输入,预测高斯基元属性的残差更新,然后将更新后的属性用于渲染。

关键创新:关键创新在于视角自适应动态溅射机制。与传统的静态高斯溅射方法不同,ViewSplat允许高斯基元的属性根据视角动态变化,从而更好地捕捉视角相关的外观变化。这种动态调整能力是提高合成图像保真度的关键。

关键设计:ViewSplat使用MLP来预测高斯基元属性的残差更新。MLP的输入是目标视角的坐标,输出是高斯基元的位置、尺度、旋转、不透明度和颜色的残差。损失函数可能包含渲染损失和正则化项,以保证训练的稳定性和生成结果的质量。具体的网络结构和参数设置在论文中应该有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ViewSplat在实验中取得了显著的性能提升,在保持快速推理(17 FPS)和实时渲染(154 FPS)的同时,实现了最先进的保真度。这意味着ViewSplat能够在实际应用中提供高质量的新视角合成结果,具有很高的实用价值。

🎯 应用场景

ViewSplat在虚拟现实、增强现实、机器人导航、自动驾驶等领域具有广泛的应用前景。它可以用于快速生成高质量的新视角图像,从而提高用户体验和系统性能。例如,在VR/AR中,可以根据用户的视角动态生成逼真的场景;在机器人导航中,可以用于构建精确的3D地图。

📄 摘要(原文)

We present ViewSplat, a view-adaptive 3D Gaussian splatting network for novel view synthesis from unposed images. While recent feed-forward 3D Gaussian splatting has significantly accelerated 3D scene reconstruction by bypassing per-scene optimization, a fundamental fidelity gap remains. We attribute this bottleneck to the limited capacity of single-step feed-forward networks to regress static Gaussian primitives that satisfy all viewpoints. To address this limitation, we shift the paradigm from static primitive regression to view-adaptive dynamic splatting. Instead of a rigid Gaussian representation, our pipeline learns a view-adaptable latent representation. Specifically, ViewSplat initially predicts base Gaussian primitives alongside the weights of dynamic MLPs. During rendering, these MLPs take target view coordinates as input and predict view-dependent residual updates for each Gaussian attribute (i.e., 3D position, scale, rotation, opacity, and color). This mechanism, which we term view-adaptive dynamic splatting, allows each primitive to rectify initial estimation errors, effectively capturing high-fidelity appearances. Extensive experiments demonstrate that ViewSplat achieves state-of-the-art fidelity while maintaining fast inference (17 FPS) and real-time rendering (154 FPS).