Learning Global Motion with Compact Gaussians for Feed-Forward 4D Reconstruction

📄 arXiv: 2605.31595v1 📥 PDF

作者: Mungyeom Kim, Minkyeong Jeon, Honggyu An, Jaewoo Jung, Hyuna Ko, Jisang Han, Hyeonseo Yu, Donghwan Shin, Sunghwan Hong, Takuya Narihira, Kazumi Fukuda, Yuki Mitsufuji, Seungryong Kim

分类: cs.CV

发布日期: 2026-05-29

备注: Project Page: see https://cvlab-kaist.github.io/C4G


💡 一句话要点

提出C4G:基于紧凑高斯和视频扩散的单目视频4D重建框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 4D重建 动态场景 高斯表示 新视角合成 视频扩散模型 运动建模 单目视频

📋 核心要点

  1. 现有单目视频动态场景重建方法存在高斯分布冗余和视角偏差,难以有效学习场景运动。
  2. C4G利用时间戳条件的高斯查询token聚合时序特征,实现全局一致的运动建模,无需逐场景优化。
  3. C4G在显著减少高斯数量的同时,实现了强大的新视角合成性能,并提升了运动建模的鲁棒性。

📝 摘要(中文)

本文提出了一种名为C4G的前馈4D重建框架,用于解决单目视频动态场景重建的挑战。现有方法逐像素预测3D高斯分布,导致高斯分布重复和视角相关的偏差,阻碍了场景运动的有效学习。C4G利用一组紧凑的、时间戳条件的可学习高斯查询token,每个token聚合整个时间上下文中的对应特征,并解码一个3D高斯分布,其位置由目标时间戳调制,从而实现全局一致的运动建模,无需逐场景优化。为了捕捉精细的细节,进一步引入了基于视频扩散模型的渲染增强模块。由于该框架有效地将特征聚合到高斯分布中,因此将其扩展到特征提升,生成支持点跟踪和动态场景理解的4D特征场。C4G使用显著更少的高斯分布,无需相机姿态,即可实现强大的新视角合成性能,同时表现出更强的运动建模能力和对大时间间隔的鲁棒性。

🔬 方法详解

问题定义:现有基于单目视频的动态场景重建方法,特别是前馈方法,通常采用逐像素预测3D高斯分布的方式。这种方法存在两个主要问题:一是生成大量重复的高斯分布,导致计算冗余;二是存在视角相关的偏差,影响场景运动的有效学习,尤其是在处理长时间序列时,难以保持时间一致性。

核心思路:C4G的核心思路是使用一组紧凑的、可学习的高斯查询token来表示场景。每个token负责聚合整个时间上下文中的相关特征,并解码一个3D高斯分布。通过时间戳调节高斯分布的位置,从而实现全局一致的运动建模。这种方法避免了逐像素预测带来的冗余和偏差,提高了运动建模的效率和准确性。

技术框架:C4G框架主要包含以下几个模块:1) 特征提取模块:从单目视频的每一帧中提取视觉特征。2) 高斯查询token:一组可学习的token,用于聚合时序特征并生成3D高斯分布。3) 时间戳调节模块:根据目标时间戳调制高斯分布的位置,实现运动建模。4) 渲染模块:将3D高斯分布渲染成图像。5) 视频扩散模型增强模块:利用视频扩散模型进一步增强渲染结果,捕捉精细细节。整体流程是,输入单目视频,经过特征提取后,高斯查询token聚合时序特征,并根据时间戳生成3D高斯分布,最后通过渲染和扩散模型增强得到重建结果。

关键创新:C4G的关键创新在于使用紧凑的高斯查询token来表示场景,并利用时间戳调节高斯分布的位置。与现有方法相比,C4G避免了逐像素预测带来的冗余和偏差,实现了全局一致的运动建模。此外,引入视频扩散模型增强模块,进一步提高了重建质量。

关键设计:C4G的关键设计包括:1) 高斯查询token的数量:需要根据场景的复杂程度进行调整,以平衡计算效率和重建质量。2) 时间戳调节模块的设计:需要选择合适的函数来根据时间戳调制高斯分布的位置,以准确地模拟场景的运动。3) 视频扩散模型增强模块的训练:需要使用大量的动态场景数据来训练扩散模型,以提高其生成精细细节的能力。损失函数可能包含重建损失、运动一致性损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

C4G在实验中取得了显著的性能提升。相比于现有方法,C4G使用显著更少的高斯分布,无需相机姿态,即可实现强大的新视角合成性能。实验结果表明,C4G在运动建模方面表现出更强的能力,并且对大时间间隔具有更好的鲁棒性。具体的性能数据(例如PSNR、SSIM等)在论文中进行了详细的展示和对比。

🎯 应用场景

C4G在动态场景重建、新视角合成、虚拟现实/增强现实、机器人导航等领域具有广泛的应用前景。它可以用于创建逼真的虚拟环境,支持沉浸式体验;也可以用于机器人感知,帮助机器人理解和导航动态环境。此外,C4G生成的4D特征场可以用于点跟踪和动态场景理解,为更高级的应用提供支持。

📄 摘要(原文)

Dynamic scene reconstruction from monocular video remains a fundamental challenge in computer vision. Existing feed-forward methods predict 3D Gaussians pixel-wise for each frame, suffering from duplicated Gaussians and view-dependent biases that hinder effective learning of scene motion. We present C4G, a feed-forward 4D reconstruction framework built upon a compact set of timestamp-conditioned learnable Gaussian query tokens. Each token aggregates corresponding features across the full temporal context and decodes a 3D Gaussian whose position is modulated by the target timestamp, enabling globally coherent motion modeling without per-scene optimization. To capture fine-grained details, we further introduce a video diffusion model-based rendering enhancement module. Since our framework effectively aggregates features into Gaussians, we extend this capability to feature lifting, producing a 4D feature field that supports point tracking and dynamic scene understanding. C4G achieves strong novel-view synthesis performance using significantly fewer Gaussians and without requiring camera poses, while exhibiting stronger motion modeling and robustness to large temporal gaps.