MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting

📄 arXiv: 2501.03714v3 📥 PDF

作者: Sangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim

分类: cs.CV

发布日期: 2025-01-07 (更新: 2025-03-24)

备注: CVPR2025 (camera ready ver.). The last two authors are co-corresponding authors. Please visit our project page at https://kaist-viclab.github.io/MoDecGS-site/


💡 一句话要点

MoDec-GS:面向复杂动态场景,提出全局到局部运动分解的紧凑型动态3D高斯溅射方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 动态3D高斯溅射 运动分解 全局到局部 规范支架 时间间隔调整

📋 核心要点

  1. 现有动态3D高斯溅射方法在表示复杂真实世界运动时,面临存储需求大的挑战。
  2. MoDec-GS提出全局到局部运动分解,利用全局和局部规范支架,由粗到精捕捉动态运动。
  3. 实验表明,MoDec-GS在保持或提高渲染质量的同时,模型尺寸平均减少70%。

📝 摘要(中文)

本文提出MoDec-GS,一种内存高效的高斯溅射框架,旨在重建具有复杂运动的挑战性场景中的新视角。该方法引入全局到局部运动分解(GLMD),以粗到精的方式有效捕捉动态运动。GLMD利用全局规范支架(Global CS)和局部规范支架(Local CS),将静态支架表示扩展到动态视频重建。对于Global CS,提出全局锚点变形(GAD),通过直接变形隐式支架属性(锚点位置、偏移和局部上下文特征)来有效地表示沿复杂运动的全局动态。接下来,通过显式的Local CS的局部高斯变形(LGD)来精细地调整局部运动。此外,引入时间间隔调整(TIA),以在训练期间自动控制每个Local CS的时间覆盖范围,从而使MoDec-GS能够基于指定的时间段数量找到最佳的间隔分配。大量评估表明,MoDec-GS在实际动态视频中,与最先进的动态3D高斯方法相比,模型尺寸平均减少70%,同时保持甚至提高了渲染质量。

🔬 方法详解

问题定义:现有动态3D高斯溅射方法在处理复杂动态场景时,需要大量的存储空间来表示场景的动态变化。尤其是在真实世界的动态视频中,复杂的运动模式使得模型参数量急剧增加,限制了其在资源受限设备上的应用。因此,如何降低动态3D高斯模型的存储需求,同时保持渲染质量,是一个亟待解决的问题。

核心思路:MoDec-GS的核心思路是将复杂的动态运动分解为全局运动和局部运动,并分别使用全局规范支架(Global CS)和局部规范支架(Local CS)进行建模。全局运动通过全局锚点变形(GAD)来高效表示,而局部运动则通过局部高斯变形(LGD)进行精细调整。这种粗到精的运动分解方式能够更有效地捕捉动态场景中的运动信息,从而降低模型的复杂度。

技术框架:MoDec-GS的整体框架包含以下几个主要模块:1) 全局规范支架(Global CS):用于表示场景的全局结构和运动趋势。2) 局部规范支架(Local CS):用于精细地调整局部运动细节。3) 全局锚点变形(GAD):通过变形Global CS的锚点属性来表示全局动态。4) 局部高斯变形(LGD):通过变形Local CS的高斯参数来表示局部动态。5) 时间间隔调整(TIA):自动调整Local CS的时间覆盖范围,以优化模型性能。训练过程包括Global CS的初始化、GAD和LGD的优化,以及TIA的调整。

关键创新:MoDec-GS的关键创新在于全局到局部运动分解(GLMD)策略。与现有方法直接对高斯参数进行建模不同,MoDec-GS首先建立全局规范支架,然后通过局部规范支架进行精细调整。这种分解方式能够更有效地捕捉动态场景中的运动信息,从而降低模型的复杂度。此外,时间间隔调整(TIA)也是一个重要的创新点,它能够自动优化Local CS的时间覆盖范围,进一步提高模型性能。

关键设计:在GAD中,通过学习锚点位置、偏移和局部上下文特征来表示全局动态。LGD则通过对局部高斯参数(如位置、旋转、缩放)进行变形来表示局部动态。TIA通过一个可学习的参数来控制每个Local CS的时间覆盖范围,并使用损失函数来优化该参数。损失函数的设计需要平衡渲染质量和模型复杂度,例如可以使用L1损失或L2损失来衡量渲染误差,并添加正则化项来约束模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MoDec-GS在保持或提高渲染质量的同时,模型尺寸平均减少70%,相比于现有state-of-the-art方法,例如Dynamic 3D Gaussians,具有显著的优势。在多个真实世界的动态视频数据集上进行了评估,证明了MoDec-GS的有效性和泛化能力。具体的性能指标包括PSNR、SSIM和LPIPS等,MoDec-GS在这些指标上均取得了具有竞争力的结果。

🎯 应用场景

MoDec-GS在虚拟现实、增强现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于创建逼真的动态3D场景,例如动态人物、运动物体等。通过降低模型存储需求,MoDec-GS使得在移动设备或嵌入式系统上部署动态3D高斯模型成为可能,从而拓展了其应用范围。未来,MoDec-GS可以进一步应用于自动驾驶、机器人导航等领域,为这些应用提供更准确、更高效的场景理解能力。

📄 摘要(原文)

3D Gaussian Splatting (3DGS) has made significant strides in scene representation and neural rendering, with intense efforts focused on adapting it for dynamic scenes. Despite delivering remarkable rendering quality and speed, existing methods struggle with storage demands and representing complex real-world motions. To tackle these issues, we propose MoDecGS, a memory-efficient Gaussian splatting framework designed for reconstructing novel views in challenging scenarios with complex motions. We introduce GlobaltoLocal Motion Decomposition (GLMD) to effectively capture dynamic motions in a coarsetofine manner. This approach leverages Global Canonical Scaffolds (Global CS) and Local Canonical Scaffolds (Local CS), extending static Scaffold representation to dynamic video reconstruction. For Global CS, we propose Global Anchor Deformation (GAD) to efficiently represent global dynamics along complex motions, by directly deforming the implicit Scaffold attributes which are anchor position, offset, and local context features. Next, we finely adjust local motions via the Local Gaussian Deformation (LGD) of Local CS explicitly. Additionally, we introduce Temporal Interval Adjustment (TIA) to automatically control the temporal coverage of each Local CS during training, allowing MoDecGS to find optimal interval assignments based on the specified number of temporal segments. Extensive evaluations demonstrate that MoDecGS achieves an average 70% reduction in model size over stateoftheart methods for dynamic 3D Gaussians from realworld dynamic videos while maintaining or even improving rendering quality.