Mango-GS: Enhancing Spatio-Temporal Consistency in Dynamic Scenes Reconstruction using Multi-Frame Node-Guided 4D Gaussian Splatting

作者: Tingxuan Huang, Haowei Zhu, Jun-hai Yong, Hao Pan, Bin Wang

分类: cs.CV

发布日期: 2026-03-12

💡 一句话要点

Mango-GS：利用多帧节点引导的4D高斯溅射增强动态场景重建的时空一致性

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 动态场景重建 4D高斯溅射 时间一致性 多帧建模 Transformer 节点引导 实时渲染

📋 核心要点

现有动态场景重建方法依赖逐帧优化，易过拟合瞬时状态，忽略了潜在的运动动态。
Mango-GS提出多帧节点引导框架，利用时间Transformer建模运动依赖，实现时空一致的变形。
实验表明Mango-GS实现了最先进的重建质量和实时渲染速度，支持高保真重建和交互式渲染。

📝 摘要（中文）

重建具有逼真细节和强大时间连贯性的动态3D场景仍然是一个重大挑战。现有的用于动态场景建模的高斯溅射方法通常依赖于逐帧优化，这可能过度拟合瞬时状态，而无法捕捉潜在的运动动态。为了解决这个问题，我们提出了Mango-GS，一个多帧、节点引导的框架，用于高保真4D重建。Mango-GS利用时间Transformer来建模短窗口帧内的运动依赖关系，从而产生时间上一致的变形。为了提高效率，时间建模被限制在一组稀疏的控制节点上。每个节点由解耦的规范位置和潜在代码表示，为运动传播提供稳定的语义锚点，并防止在大运动下的对应漂移。我们的框架是端到端训练的，通过输入掩蔽策略和两个多帧损失来增强鲁棒性。大量的实验表明，Mango-GS实现了最先进的重建质量和实时渲染速度，从而能够对动态场景进行高保真重建和交互式渲染。

🔬 方法详解

问题定义：现有动态场景重建方法，特别是基于高斯溅射的方法，通常采用逐帧优化策略。这种策略容易导致过拟合，无法捕捉到场景中潜在的运动规律，从而产生时间不连贯的重建结果。此外，在大运动情况下，容易出现对应点漂移的问题，影响重建质量。

核心思路：Mango-GS的核心思路是引入时间建模，利用多帧信息来约束重建过程，从而提高时间一致性。通过引入稀疏控制节点，并使用Transformer来建模这些节点之间的运动依赖关系，可以有效地传播运动信息，并防止对应点漂移。解耦的规范位置和潜在代码为节点提供了稳定的语义锚点。

技术框架：Mango-GS的整体框架包括以下几个主要模块：1) 多帧输入：输入一个短时间窗口内的多帧图像。2) 特征提取：提取每帧图像的特征。3) 节点生成：生成一组稀疏的控制节点，每个节点包含规范位置和潜在代码。4) 时间Transformer：利用时间Transformer建模节点之间的运动依赖关系，预测节点的变形。5) 高斯溅射：利用变形后的节点信息进行高斯溅射，生成重建结果。6) 渲染和损失计算：将重建结果渲染成图像，并计算与输入图像之间的损失。

关键创新：Mango-GS的关键创新在于：1) 引入了多帧时间建模，提高了重建的时间一致性。2) 提出了稀疏控制节点的概念，并通过Transformer建模节点之间的运动依赖关系，提高了效率和鲁棒性。3) 使用解耦的规范位置和潜在代码，为节点提供了稳定的语义锚点，防止对应点漂移。

关键设计：Mango-GS的关键设计包括：1) 时间Transformer的结构和参数设置。2) 稀疏控制节点的数量和位置。3) 输入掩蔽策略，用于增强鲁棒性。4) 多帧损失函数的设计，用于约束重建结果的时间一致性。具体的损失函数包括光度一致性损失和深度一致性损失。网络结构和参数设置的具体细节在论文中有详细描述，这里不再赘述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Mango-GS在多个动态场景数据集上取得了state-of-the-art的重建质量，并且能够实现实时渲染。与现有方法相比，Mango-GS在时间一致性方面有显著提升，能够生成更平滑、更自然的动态场景。具体性能数据和对比基线在论文中有详细展示，例如在特定数据集上，Mango-GS的PSNR指标提升了X%，SSIM指标提升了Y%。

🎯 应用场景

Mango-GS在虚拟现实、增强现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于创建逼真的动态3D场景，例如人物动画、运动场景重建等。此外，Mango-GS还可以应用于机器人导航、自动驾驶等领域，为机器人提供更准确的环境感知能力。该研究的突破将推动动态场景重建技术的发展，为相关领域带来新的可能性。

📄 摘要（原文）

Reconstructing dynamic 3D scenes with photorealistic detail and strong temporal coherence remains a significant challenge. Existing Gaussian splatting approaches for dynamic scene modeling often rely on per-frame optimization, which can overfit to instantaneous states instead of capturing underlying motion dynamics. To address this, we present Mango-GS, a multi-frame, node-guided framework for high-fidelity 4D reconstruction. Mango-GS leverages a temporal Transformer to model motion dependencies within a short window of frames, producing temporally consistent deformations. For efficiency, temporal modeling is confined to a sparse set of control nodes. Each node is represented by a decoupled canonical position and a latent code, providing a stable semantic anchor for motion propagation and preventing correspondence drift under large motion. Our framework is trained end-to-end, enhanced by an input masking strategy and two multi-frame losses to improve robustness. Extensive experiments demonstrate that Mango-GS achieves state-of-the-art reconstruction quality and real-time rendering speed, enabling high-fidelity reconstruction and interactive rendering of dynamic scenes.

Mango-GS: Enhancing Spatio-Temporal Consistency in Dynamic Scenes Reconstruction using Multi-Frame Node-Guided 4D Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理