ClipGStream: Clip-Stream Gaussian Splatting for Any Length and Any Motion Multi-View Dynamic Scene Reconstruction

📄 arXiv: 2604.13746v1 📥 PDF

作者: Jie Liang, Jiahao Wu, Chao Wang, Jiayu Yang, Xiaoyun Zheng, Kaiqiang Xiong, Zhanke Wang, Jinbo Yan, Feng Gao, Ronggang Wang

分类: cs.CV

发布日期: 2026-04-15

备注: CVPR 2026, Project pages: https://liangjie1999.github.io/ClipGStreamWeb/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

ClipGStream:提出一种用于任意长度和运动多视角动态场景重建的Clip-Stream高斯溅射方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态场景重建 高斯溅射 多视角视频 时间一致性 长序列视频 VR/AR/XR 神经渲染

📋 核心要点

  1. 现有动态场景重建方法在长序列和剧烈运动下存在时间稳定性差或内存消耗过大的问题。
  2. ClipGStream通过clip级别的流优化,结合clip独立的时空场和clip间继承的锚点,实现高效的动态建模。
  3. 实验结果表明,ClipGStream在重建质量和效率方面均达到了最先进水平,能够处理更长的动态视频。

📝 摘要(中文)

动态3D场景重建对于VR、MR和XR等沉浸式媒体至关重要,但对于具有大规模运动的长多视角序列仍然具有挑战性。现有的动态高斯方法要么是Frame-Stream,提供可扩展性但时间稳定性差,要么是Clip,以高内存和有限的序列长度为代价实现局部一致性。我们提出了ClipGStream,一种混合重建框架,它在clip级别而不是frame级别执行流优化。序列被分成短clip,其中动态运动使用clip独立的时空场和残差锚点补偿进行建模,以有效地捕获局部变化,而clip间继承的锚点和解码器保持跨clip的结构一致性。这种Clip-Stream设计能够对具有高时间连贯性和降低的内存开销的长动态视频进行可扩展的、无闪烁的重建。大量的实验表明,ClipGStream实现了最先进的重建质量和效率。

🔬 方法详解

问题定义:现有动态3D场景重建方法在处理长序列多视角视频时面临挑战。Frame-Stream方法虽然具有可扩展性,但时间一致性较差,容易出现闪烁;Clip方法虽然能保证局部一致性,但内存消耗巨大,且序列长度受限。因此,如何实现长序列、大规模运动下的高质量、高效率动态场景重建是本文要解决的核心问题。

核心思路:ClipGStream的核心思路是将长视频序列分割成多个短clip,在clip级别进行流优化,从而在可扩展性和时间一致性之间取得平衡。通过clip独立的时空场建模clip内的动态运动,并利用clip间继承的锚点和解码器来保持跨clip的结构一致性。

技术框架:ClipGStream的整体框架包括以下几个主要阶段:1) 将长视频序列分割成多个短clip;2) 对每个clip进行独立的高斯溅射优化,使用clip独立的时空场建模动态运动;3) 利用残差锚点补偿来捕获局部变化;4) 通过clip间继承的锚点和解码器来保持跨clip的结构一致性。

关键创新:ClipGStream的关键创新在于其Clip-Stream混合架构。它结合了Frame-Stream方法的可扩展性和Clip方法的时间一致性,通过在clip级别进行流优化,实现了长序列动态场景的高质量、高效率重建。此外,clip独立的时空场和clip间继承的锚点也是重要的创新点,它们分别负责建模clip内的动态运动和保持跨clip的结构一致性。

关键设计:ClipGStream的关键设计包括:1) Clip的长度选择,需要在时间和空间一致性之间进行权衡;2) 时空场的具体形式,例如可以使用MLP来表示;3) 残差锚点补偿的实现方式,例如可以使用线性变换或非线性变换;4) clip间锚点和解码器的初始化和更新策略,例如可以使用滑动平均或优化方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ClipGStream在重建质量和效率方面均优于现有方法。与Frame-Stream方法相比,ClipGStream具有更好的时间一致性,能够有效减少闪烁现象。与Clip方法相比,ClipGStream具有更高的可扩展性,能够处理更长的视频序列,并且内存消耗更低。具体性能数据(例如PSNR、SSIM等)和对比基线(例如Dynamic Gaussian Splatting)可在论文中找到。

🎯 应用场景

ClipGStream在VR/AR/XR等沉浸式媒体领域具有广泛的应用前景。它可以用于创建逼真的动态3D场景,提升用户体验。例如,可以用于重建运动中的人物或物体,并将其集成到虚拟环境中。此外,该技术还可以应用于机器人导航、自动驾驶等领域,为机器人提供更准确的环境感知能力。

📄 摘要(原文)

Dynamic 3D scene reconstruction is essential for immersive media such as VR, MR, and XR, yet remains challenging for long multi-view sequences with large-scale motion. Existing dynamic Gaussian approaches are either Frame-Stream, offering scalability but poor temporal stability, or Clip, achieving local consistency at the cost of high memory and limited sequence length. We propose ClipGStream, a hybrid reconstruction framework that performs stream optimization at the clip level rather than the frame level. The sequence is divided into short clips, where dynamic motion is modeled using clip-independent spatio-temporal fields and residual anchor compensation to capture local variations efficiently, while inter-clip inherited anchors and decoders maintain structural consistency across clips. This Clip-Stream design enables scalable, flicker-free reconstruction of long dynamic videos with high temporal coherence and reduced memory overhead. Extensive experiments demonstrate that ClipGStream achieves state-of-the-art reconstruction quality and efficiency. The project page is available at: https://liangjie1999.github.io/ClipGStreamWeb/