Efficient Gaussian Splatting for Monocular Dynamic Scene Rendering via Sparse Time-Variant Attribute Modeling

📄 arXiv: 2502.20378v1 📥 PDF

作者: Hanyang Kong, Xingyi Yang, Xinchao Wang

分类: cs.CV

发布日期: 2025-02-27

备注: AAAI 2025


💡 一句话要点

提出EDGS,通过稀疏时变属性建模实现单目动态场景高效高质渲染

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态场景渲染 高斯溅射 稀疏建模 时变属性 单目视频

📋 核心要点

  1. 现有可变形高斯溅射方法在动态场景渲染中存在高斯分布冗余问题,导致渲染速度慢,静态区域易抖动。
  2. EDGS通过稀疏锚点网格表示动态场景,利用运动流计算和无监督策略过滤静态区域锚点,减少计算量。
  3. 实验表明,EDGS在渲染速度和渲染质量上均优于现有方法,在真实世界数据集上取得了显著提升。

📝 摘要(中文)

从单目视频渲染动态场景是一项关键但具有挑战性的任务。最近的可变形高斯溅射已成为表示真实世界动态场景的强大解决方案。然而,它通常导致大量冗余的高斯分布,试图拟合各个时间步长的每个训练视图,从而降低了渲染速度。此外,静态区域中高斯分布的属性是时不变的,因此无需对每个高斯分布进行建模,否则会导致静态区域出现抖动。实际上,动态场景渲染速度的主要瓶颈是高斯分布的数量。为此,我们引入了高效动态高斯溅射(EDGS),它通过稀疏时变属性建模来表示动态场景。我们的方法使用稀疏锚点网格表示来公式化动态场景,并通过经典核表示计算密集高斯分布的运动流。此外,我们提出了一种无监督策略来有效地过滤掉对应于静态区域的锚点。只有与可变形对象关联的锚点才会被输入到MLP中以查询时变属性。在两个真实世界数据集上的实验表明,与先前的最先进方法相比,我们的EDGS显着提高了渲染速度,并具有卓越的渲染质量。

🔬 方法详解

问题定义:现有基于高斯溅射的动态场景渲染方法,为了拟合每个时间步长的训练视图,会生成大量冗余的高斯分布,导致渲染速度慢。此外,静态区域的高斯属性实际上是时不变的,但现有方法仍然对所有高斯进行建模,导致静态区域出现不必要的抖动。因此,核心问题是如何在保证渲染质量的前提下,减少高斯分布的数量,提高渲染效率,并避免静态区域的抖动。

核心思路:EDGS的核心思路是采用稀疏的时变属性建模。具体来说,使用稀疏的锚点网格来表示动态场景,只对与可变形对象相关的锚点进行时变属性建模。对于静态区域,则通过无监督的方式过滤掉对应的锚点,从而避免了对静态区域进行不必要的计算。此外,利用经典核表示计算密集高斯分布的运动流,从而实现高效的动态场景表示。

技术框架:EDGS的整体框架包括以下几个主要阶段:1) 稀疏锚点网格初始化:在空间中初始化一组稀疏的锚点网格。2) 运动流计算:利用经典核表示计算密集高斯分布的运动流,将高斯分布与锚点关联起来。3) 静态区域过滤:通过无监督策略,过滤掉对应于静态区域的锚点。4) 时变属性建模:对于剩余的锚点,使用MLP查询其时变属性,例如位置、旋转和缩放等。5) 渲染:基于锚点的时变属性和运动流,进行动态场景的渲染。

关键创新:EDGS的关键创新在于以下几个方面:1) 稀疏锚点网格表示:使用稀疏的锚点网格来表示动态场景,大大减少了需要建模的高斯分布数量。2) 无监督静态区域过滤:提出了一种无监督策略,可以有效地过滤掉对应于静态区域的锚点,避免了对静态区域进行不必要的计算。3) 运动流计算:利用经典核表示计算密集高斯分布的运动流,实现了高效的动态场景表示。

关键设计:在静态区域过滤方面,采用了一种基于高斯属性变化量的无监督策略。具体来说,计算每个锚点对应的高斯分布在不同时间步长的属性变化量,如果变化量小于某个阈值,则认为该锚点对应于静态区域,并将其过滤掉。在时变属性建模方面,使用了一个小的MLP来查询锚点的时变属性。MLP的输入是锚点的空间位置和时间步长,输出是锚点在当前时间步长的位置、旋转和缩放等属性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EDGS在两个真实世界数据集上均取得了显著的性能提升。与现有最先进方法相比,EDGS在渲染速度上提升了2-3倍,同时保持了甚至略微提升了渲染质量。这证明了EDGS在动态场景渲染方面的有效性和优越性。

🎯 应用场景

EDGS技术可应用于虚拟现实、增强现实、自动驾驶、机器人导航等领域。它能够高效地渲染动态场景,为用户提供更逼真、更流畅的体验。例如,在自动驾驶中,可以利用EDGS技术实时渲染周围的动态环境,帮助车辆做出更准确的决策。在VR/AR应用中,可以用于创建更具沉浸感的动态虚拟环境。

📄 摘要(原文)

Rendering dynamic scenes from monocular videos is a crucial yet challenging task. The recent deformable Gaussian Splatting has emerged as a robust solution to represent real-world dynamic scenes. However, it often leads to heavily redundant Gaussians, attempting to fit every training view at various time steps, leading to slower rendering speeds. Additionally, the attributes of Gaussians in static areas are time-invariant, making it unnecessary to model every Gaussian, which can cause jittering in static regions. In practice, the primary bottleneck in rendering speed for dynamic scenes is the number of Gaussians. In response, we introduce Efficient Dynamic Gaussian Splatting (EDGS), which represents dynamic scenes via sparse time-variant attribute modeling. Our approach formulates dynamic scenes using a sparse anchor-grid representation, with the motion flow of dense Gaussians calculated via a classical kernel representation. Furthermore, we propose an unsupervised strategy to efficiently filter out anchors corresponding to static areas. Only anchors associated with deformable objects are input into MLPs to query time-variant attributes. Experiments on two real-world datasets demonstrate that our EDGS significantly improves the rendering speed with superior rendering quality compared to previous state-of-the-art methods.