WebSpline: Structure-Informed Splines for Real-Time 3D Gaussians from Monocular Videos

📄 arXiv: 2606.02096v1 📥 PDF

作者: Jongmin Park, Jeonghwan Yun, Minh-Quan Viet Bui, Munchurl Kim

分类: cs.CV

发布日期: 2026-06-01

备注: The first two authors contributed equally to this work (equal contribution). Please visit our project page at https://kaist-viclab.github.io/webspline-site/


💡 一句话要点

WebSpline:单目视频实时3D高斯建模的结构化样条方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态场景重建 3D高斯 单目视频 结构化样条 实时渲染

📋 核心要点

  1. 现有单目视频动态场景重建方法难以在有限多视角线索下平衡全局结构连贯性和局部精细细节。
  2. WebSpline通过结构化样条(SIS)表示动态高斯轨迹,并利用结构代理图(SPG)组织运动,实现结构连贯的高保真重建。
  3. 实验表明,WebSpline在渲染质量上达到SOTA,且渲染速度比现有方法快10倍以上。

📝 摘要(中文)

本文提出WebSpline,一种新颖的动态3D高斯框架,旨在从单目视频中实现结构连贯且高保真的重建,并支持快速渲染。WebSpline的核心是结构化样条(SIS)表示,它使用可学习的三次Hermite样条来建模每个动态高斯轨迹,其运动通过辅助结构代理图(SPG)进行结构化组织。该框架分两个阶段优化:(i)第一阶段,SPG从2D点轨迹初始化,并通过时间刚性正则化进行细化,以建立序列中运动对象的结构连贯性;(ii)第二阶段,SIS表示从细化的SPG初始化,并在空间和结构邻域约束下进行优化。在推理时,高斯运动仅通过评估学习到的SIS获得,从而实现快速渲染。在具有挑战性的单目动态场景基准iPhone和NVIDIA上的大量实验表明,WebSpline实现了最先进的渲染质量,同时渲染速度比iPhone数据集上第二好的方法WorldTree快10倍以上。

🔬 方法详解

问题定义:现有方法在单目视频动态场景重建中,难以同时保证全局结构连贯性和局部细节,尤其是在多视角信息有限的情况下。这导致重建结果可能出现结构扭曲或细节丢失,影响真实感和应用价值。

核心思路:WebSpline的核心在于使用结构化样条(SIS)来表示动态高斯轨迹。通过将高斯运动与一个结构代理图(SPG)关联,可以有效地约束高斯运动,保证结构连贯性。这种方法将运动建模与结构信息相结合,从而在保证结构的同时,也能捕捉到细节变化。

技术框架:WebSpline框架包含两个主要阶段:1. SPG初始化与优化:首先,从2D点轨迹初始化SPG,然后通过时间刚性正则化来优化SPG,确保运动的结构连贯性。2. SIS初始化与优化:基于优化后的SPG,初始化SIS表示,并在空间和结构邻域约束下进行优化。在推理阶段,仅需评估学习到的SIS即可获得高斯运动,实现快速渲染。

关键创新:WebSpline的关键创新在于Structure-Informed Spline (SIS)表示。它将动态高斯点的运动轨迹建模为可学习的三次Hermite样条,并利用Structural Proxy Graph (SPG)来约束样条的运动,从而在保证结构连贯性的同时,也能捕捉到局部细节。这种结构化的运动建模方式是与现有方法的本质区别。

关键设计:SPG的初始化依赖于2D点轨迹,时间刚性正则化用于约束SPG中相邻节点之间的运动一致性。SIS的优化则依赖于空间和结构邻域约束,确保高斯点在空间和结构上保持合理的分布。损失函数的设计包括重建损失、正则化损失等,用于优化SPG和SIS的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

WebSpline在iPhone和NVIDIA数据集上取得了SOTA的渲染质量,并且渲染速度比iPhone数据集上第二好的方法WorldTree快10倍以上。这表明WebSpline在保证重建质量的同时,显著提升了渲染效率,使其更具实用价值。

🎯 应用场景

WebSpline在动态场景重建、虚拟现实、增强现实、机器人导航等领域具有广泛的应用前景。它可以用于创建逼真的虚拟环境,支持更自然的交互体验,并为机器人提供更准确的环境感知能力。该研究的快速渲染特性使其特别适用于对实时性要求较高的应用场景。

📄 摘要(原文)

Dynamic scene reconstruction from monocular videos remains highly challenging, as existing methods often struggle to balance global structural coherence and local fine-grained details under limited multi-view cues. To address this challenge, we propose WebSpline, a novel dynamic 3D Gaussian framework that enables structurally coherent and high-fidelity reconstruction from monocular videos with fast rendering. The core of WebSpline is the Structure-Informed Spline (SIS) representation, which models each dynamic Gaussian trajectory using a learnable cubic Hermite spline whose motion is structurally organized with an auxiliary Structural Proxy Graph (SPG). The proposed framework is optimized in two stages: (i) in the first stage, the SPG is initialized from 2D point tracks and refined with temporal rigidity regularization to establish structural coherence for moving objects across the sequence; and (ii) in the second stage, the SIS representation is initialized from the refined SPG and optimized under both spatial and structural neighborhood constraints. At inference, Gaussian motion is obtained solely by evaluating the learned SIS, enabling fast rendering. Extensive experiments on the challenging monocular dynamic scene benchmarks, iPhone and NVIDIA, demonstrate that our WebSpline achieves state-of-the-art rendering quality while rendering over 10 times faster than WorldTree, the second-best method on the iPhone dataset.