Learning Global Motion with Compact Gaussians for Feed-Forward 4D Reconstruction

作者: Mungyeom Kim, Minkyeong Jeon, Honggyu An, Jaewoo Jung, Hyuna Ko, Jisang Han, Hyeonseo Yu, Donghwan Shin, Sunghwan Hong, Takuya Narihira, Kazumi Fukuda, Yuki Mitsufuji, Seungryong Kim

分类: cs.CV

发布日期: 2026-05-29

备注: Project Page: see https://cvlab-kaist.github.io/C4G

💡 一句话要点

提出C4G：基于紧凑高斯和视频扩散的单目视频4D重建框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 4D重建 动态场景 高斯表示 新视角合成 视频扩散模型 运动建模 单目视频

📋 核心要点

现有单目视频动态场景重建方法存在高斯分布冗余和视角偏差，难以有效学习场景运动。
C4G利用时间戳条件的高斯查询token聚合时序特征，实现全局一致的运动建模，无需逐场景优化。
C4G在显著减少高斯数量的同时，实现了强大的新视角合成性能，并提升了运动建模的鲁棒性。

📝 摘要（中文）

本文提出了一种名为C4G的前馈4D重建框架，用于解决单目视频动态场景重建的挑战。现有方法逐像素预测3D高斯分布，导致高斯分布重复和视角相关的偏差，阻碍了场景运动的有效学习。C4G利用一组紧凑的、时间戳条件的可学习高斯查询token，每个token聚合整个时间上下文中的对应特征，并解码一个3D高斯分布，其位置由目标时间戳调制，从而实现全局一致的运动建模，无需逐场景优化。为了捕捉精细的细节，进一步引入了基于视频扩散模型的渲染增强模块。由于该框架有效地将特征聚合到高斯分布中，因此将其扩展到特征提升，生成支持点跟踪和动态场景理解的4D特征场。C4G使用显著更少的高斯分布，无需相机姿态，即可实现强大的新视角合成性能，同时表现出更强的运动建模能力和对大时间间隔的鲁棒性。

🔬 方法详解

问题定义：现有基于单目视频的动态场景重建方法，特别是前馈方法，通常采用逐像素预测3D高斯分布的方式。这种方法存在两个主要问题：一是生成大量重复的高斯分布，导致计算冗余；二是存在视角相关的偏差，影响场景运动的有效学习，尤其是在处理长时间序列时，难以保持时间一致性。

核心思路：C4G的核心思路是使用一组紧凑的、可学习的高斯查询token来表示场景。每个token负责聚合整个时间上下文中的相关特征，并解码一个3D高斯分布。通过时间戳调节高斯分布的位置，从而实现全局一致的运动建模。这种方法避免了逐像素预测带来的冗余和偏差，提高了运动建模的效率和准确性。

技术框架：C4G框架主要包含以下几个模块：1) 特征提取模块：从单目视频的每一帧中提取视觉特征。2) 高斯查询token：一组可学习的token，用于聚合时序特征并生成3D高斯分布。3) 时间戳调节模块：根据目标时间戳调制高斯分布的位置，实现运动建模。4) 渲染模块：将3D高斯分布渲染成图像。5) 视频扩散模型增强模块：利用视频扩散模型进一步增强渲染结果，捕捉精细细节。整体流程是，输入单目视频，经过特征提取后，高斯查询token聚合时序特征，并根据时间戳生成3D高斯分布，最后通过渲染和扩散模型增强得到重建结果。

关键创新：C4G的关键创新在于使用紧凑的高斯查询token来表示场景，并利用时间戳调节高斯分布的位置。与现有方法相比，C4G避免了逐像素预测带来的冗余和偏差，实现了全局一致的运动建模。此外，引入视频扩散模型增强模块，进一步提高了重建质量。

关键设计：C4G的关键设计包括：1) 高斯查询token的数量：需要根据场景的复杂程度进行调整，以平衡计算效率和重建质量。2) 时间戳调节模块的设计：需要选择合适的函数来根据时间戳调制高斯分布的位置，以准确地模拟场景的运动。3) 视频扩散模型增强模块的训练：需要使用大量的动态场景数据来训练扩散模型，以提高其生成精细细节的能力。损失函数可能包含重建损失、运动一致性损失等。

🖼️ 关键图片

📊 实验亮点

C4G在实验中取得了显著的性能提升。相比于现有方法，C4G使用显著更少的高斯分布，无需相机姿态，即可实现强大的新视角合成性能。实验结果表明，C4G在运动建模方面表现出更强的能力，并且对大时间间隔具有更好的鲁棒性。具体的性能数据（例如PSNR、SSIM等）在论文中进行了详细的展示和对比。

🎯 应用场景

C4G在动态场景重建、新视角合成、虚拟现实/增强现实、机器人导航等领域具有广泛的应用前景。它可以用于创建逼真的虚拟环境，支持沉浸式体验；也可以用于机器人感知，帮助机器人理解和导航动态环境。此外，C4G生成的4D特征场可以用于点跟踪和动态场景理解，为更高级的应用提供支持。

📄 摘要（原文）

Dynamic scene reconstruction from monocular video remains a fundamental challenge in computer vision. Existing feed-forward methods predict 3D Gaussians pixel-wise for each frame, suffering from duplicated Gaussians and view-dependent biases that hinder effective learning of scene motion. We present C4G, a feed-forward 4D reconstruction framework built upon a compact set of timestamp-conditioned learnable Gaussian query tokens. Each token aggregates corresponding features across the full temporal context and decodes a 3D Gaussian whose position is modulated by the target timestamp, enabling globally coherent motion modeling without per-scene optimization. To capture fine-grained details, we further introduce a video diffusion model-based rendering enhancement module. Since our framework effectively aggregates features into Gaussians, we extend this capability to feature lifting, producing a 4D feature field that supports point tracking and dynamic scene understanding. C4G achieves strong novel-view synthesis performance using significantly fewer Gaussians and without requiring camera poses, while exhibiting stronger motion modeling and robustness to large temporal gaps.

Learning Global Motion with Compact Gaussians for Feed-Forward 4D Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理