SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes

📄 arXiv: 2312.14937v3 📥 PDF

作者: Yi-Hua Huang, Yang-Tian Sun, Ziyi Yang, Xiaoyang Lyu, Yan-Pei Cao, Xiaojuan Qi

分类: cs.CV, cs.GR

发布日期: 2023-12-04 (更新: 2024-03-31)

备注: Code link: https://github.com/yihua7/SC-GS

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出SC-GS,通过稀疏控制高斯溅射实现动态场景的可编辑新视角合成。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 新视角合成 动态场景 高斯溅射 运动编辑 稀疏控制点

📋 核心要点

  1. 动态场景的新视角合成面临挑战,现有方法难以兼顾渲染质量和编辑能力。
  2. SC-GS通过稀疏控制点解耦运动和外观,利用形变MLP预测控制点变换,实现高效运动建模。
  3. 实验表明,SC-GS在渲染速度和质量上优于现有方法,并支持外观保持的运动编辑。

📝 摘要(中文)

本文针对动态场景的新视角合成问题,提出了一种新的表示方法,将动态场景的运动和外观分别解耦为稀疏控制点和稠密高斯分布。该方法使用远少于高斯分布数量的稀疏控制点,学习紧凑的6自由度变换基,并通过学习到的插值权重进行局部插值,从而得到3D高斯分布的运动场。利用形变MLP预测每个控制点随时间变化的6自由度变换,降低了学习复杂度,增强了学习能力,并有助于获得时间和空间上连贯的运动模式。然后,联合学习3D高斯分布、控制点的规范空间位置和形变MLP,以重建3D场景的外观、几何形状和动态。在学习过程中,自适应地调整控制点的位置和数量,以适应不同区域中变化的运动复杂性,并开发了基于尽可能刚性原则的ARAP损失,以增强学习到的运动的空间连续性和局部刚性。最后,由于显式的稀疏运动表示及其与外观的解耦,该方法能够实现用户控制的运动编辑,同时保持高保真度的外观。大量实验表明,该方法在新视角合成方面优于现有方法,并具有较高的渲染速度,并支持新的外观保持运动编辑应用。

🔬 方法详解

问题定义:动态场景的新视角合成是一个具有挑战性的问题。现有的方法通常难以在渲染质量、渲染速度和可编辑性之间取得平衡。特别是,如何有效地表示和控制动态场景中的复杂运动是一个关键的痛点。

核心思路:本文的核心思路是将动态场景的运动和外观进行解耦,使用稀疏的控制点来表示运动,并使用稠密的高斯分布来表示外观。通过这种解耦,可以独立地控制运动和外观,从而实现可编辑的动态场景新视角合成。稀疏控制点的使用降低了运动建模的复杂度,提高了学习效率。

技术框架:SC-GS的整体框架包括以下几个主要模块:1) 稀疏控制点:用于表示场景的运动;2) 形变MLP:用于预测控制点随时间变化的6自由度变换;3) 3D高斯分布:用于表示场景的外观和几何形状;4) 运动场生成:通过插值控制点的变换来生成3D高斯分布的运动场。学习过程联合优化控制点的位置、形变MLP的参数和高斯分布的参数。

关键创新:SC-GS的关键创新在于使用稀疏控制点来表示运动,并利用形变MLP来预测控制点的变换。这种方法有效地降低了运动建模的复杂度,并提高了学习效率。与现有方法相比,SC-GS能够更好地捕捉动态场景中的复杂运动,并实现可编辑的运动控制。

关键设计:在SC-GS中,控制点的数量和位置是自适应调整的,以适应不同区域中变化的运动复杂性。为了保证运动的空间连续性和局部刚性,使用了基于尽可能刚性原则的ARAP损失。形变MLP的网络结构和参数设置对运动预测的精度有重要影响,需要仔细设计。

📊 实验亮点

实验结果表明,SC-GS在动态场景新视角合成任务上优于现有方法。在渲染速度方面,SC-GS实现了实时渲染。在渲染质量方面,SC-GS在PSNR、SSIM和LPIPS等指标上均取得了显著提升。此外,SC-GS还支持用户控制的运动编辑,能够实现外观保持的运动修改。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发、电影制作等领域。例如,可以用于创建逼真的虚拟角色,实现用户与虚拟角色的互动,或者用于编辑和修改现有的动态场景。该技术还可以用于机器人导航和场景理解等领域,具有广泛的应用前景。

📄 摘要(原文)

Novel view synthesis for dynamic scenes is still a challenging problem in computer vision and graphics. Recently, Gaussian splatting has emerged as a robust technique to represent static scenes and enable high-quality and real-time novel view synthesis. Building upon this technique, we propose a new representation that explicitly decomposes the motion and appearance of dynamic scenes into sparse control points and dense Gaussians, respectively. Our key idea is to use sparse control points, significantly fewer in number than the Gaussians, to learn compact 6 DoF transformation bases, which can be locally interpolated through learned interpolation weights to yield the motion field of 3D Gaussians. We employ a deformation MLP to predict time-varying 6 DoF transformations for each control point, which reduces learning complexities, enhances learning abilities, and facilitates obtaining temporal and spatial coherent motion patterns. Then, we jointly learn the 3D Gaussians, the canonical space locations of control points, and the deformation MLP to reconstruct the appearance, geometry, and dynamics of 3D scenes. During learning, the location and number of control points are adaptively adjusted to accommodate varying motion complexities in different regions, and an ARAP loss following the principle of as rigid as possible is developed to enforce spatial continuity and local rigidity of learned motions. Finally, thanks to the explicit sparse motion representation and its decomposition from appearance, our method can enable user-controlled motion editing while retaining high-fidelity appearances. Extensive experiments demonstrate that our approach outperforms existing approaches on novel view synthesis with a high rendering speed and enables novel appearance-preserved motion editing applications. Project page: https://yihua7.github.io/SC-GS-web/