C3G: Learning Compact 3D Representations with 2K Gaussians

📄 arXiv: 2512.04021v1 📥 PDF

作者: Honggyu An, Jaewoo Jung, Mungyeom Kim, Sunghwan Hong, Chaehyun Kim, Kazumi Fukuda, Minkyeong Jeon, Jisang Han, Takuya Narihira, Hyuna Ko, Junsu Kim, Yuki Mitsufuji, Seungryong Kim

分类: cs.CV

发布日期: 2025-12-03

备注: Project Page : https://cvlab-kaist.github.io/C3G/


💡 一句话要点

C3G:使用2K高斯学习紧凑的3D表示,提升场景重建与理解

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 3D场景重建 高斯溅射 多视图学习 自注意力机制 特征提升

📋 核心要点

  1. 现有方法在3D场景重建中生成大量冗余高斯分布,导致内存开销大,多视图特征聚合效果差。
  2. C3G通过学习tokens聚合多视图特征,指导高斯分布生成,仅在关键位置估计紧凑的3D高斯分布。
  3. 实验表明,C3G在内存效率和特征保真度方面优于现有方法,提升了新视角合成和场景理解性能。

📝 摘要(中文)

本文提出了一种名为C3G的新型前馈框架,用于从无姿态的稀疏视图中重建和理解3D场景。现有方法通常采用基于像素的3D高斯溅射进行重建,然后进行2D到3D的特征提升以进行场景理解。然而,这些方法会生成过多的冗余高斯分布,导致高内存开销和次优的多视图特征聚合,从而降低新视角合成和场景理解的性能。C3G仅在必要的空间位置估计紧凑的3D高斯分布,最大限度地减少冗余,同时实现有效的特征提升。C3G引入可学习的tokens,通过自注意力聚合多视图特征来指导高斯分布的生成,确保每个高斯分布整合来自多个视图的相关视觉特征。然后,利用学习到的注意力模式进行高斯解码,以高效地提升特征。大量的实验表明,C3G在无姿态新视角合成、3D开放词汇分割和视角不变特征聚合方面具有有效性。结果表明,紧凑但具有几何意义的表示足以实现高质量的场景重建和理解,与现有方法相比,实现了卓越的内存效率和特征保真度。

🔬 方法详解

问题定义:现有方法在从稀疏视图重建3D场景时,会生成大量冗余的3D高斯分布,导致内存占用过高,并且影响多视图特征的有效聚合,最终降低了新视角合成和场景理解的性能。这些冗余的高斯分布并没有提供额外的几何信息,反而增加了计算负担。

核心思路:C3G的核心思路是学习一种紧凑的3D表示,只在必要的空间位置生成高斯分布,从而减少冗余。通过引入可学习的tokens,利用自注意力机制聚合多视图特征,指导高斯分布的生成,确保每个高斯分布都包含来自多个视角的相关视觉信息。这样既能减少内存占用,又能提高特征的表达能力。

技术框架:C3G框架主要包含以下几个阶段:1) 多视图特征提取:从多个视角的图像中提取特征。2) Token生成与特征聚合:生成可学习的tokens,并使用自注意力机制聚合多视图特征,为每个token赋予来自不同视角的视觉信息。3) 高斯生成:基于聚合后的token特征,生成3D高斯分布,这些高斯分布位于场景的关键位置。4) 特征提升:利用学习到的注意力模式,将2D特征提升到3D空间,用于后续的场景理解任务。

关键创新:C3G的关键创新在于:1) 紧凑的高斯表示:只在必要的空间位置生成高斯分布,减少了冗余,提高了内存效率。2) 基于Token的多视图特征聚合:通过可学习的tokens和自注意力机制,有效地聚合了来自多个视角的特征,提高了特征的表达能力。3) 基于注意力模式的特征提升:利用学习到的注意力模式,高效地将2D特征提升到3D空间。

关键设计:C3G的关键设计包括:1) Token数量:选择合适的token数量,以平衡表示能力和计算成本。2) 自注意力机制:使用多头自注意力机制,以捕捉不同视角之间的复杂关系。3) 损失函数:设计合适的损失函数,以优化高斯分布的位置、形状和颜色,并鼓励生成紧凑的表示。具体的损失函数可能包括重建损失、正则化损失等。4) 高斯分布参数化:使用合适的参数化方法来表示3D高斯分布,例如位置、旋转、缩放和颜色。

📊 实验亮点

C3G在多个任务上取得了显著的性能提升。在无姿态新视角合成任务中,C3G在保持高视觉质量的同时,显著降低了内存占用。在3D开放词汇分割任务中,C3G的性能优于现有方法,表明其学习到的3D表示具有更好的语义信息。此外,C3G在视角不变特征聚合方面也表现出色,证明了其能够有效地整合来自不同视角的特征。

🎯 应用场景

C3G在机器人导航、自动驾驶、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于从稀疏的传感器数据中重建高质量的3D场景,并进行场景理解,从而帮助机器人更好地感知和理解周围环境。此外,C3G还可以用于生成逼真的虚拟场景,为用户提供沉浸式的体验。

📄 摘要(原文)

Reconstructing and understanding 3D scenes from unposed sparse views in a feed-forward manner remains as a challenging task in 3D computer vision. Recent approaches use per-pixel 3D Gaussian Splatting for reconstruction, followed by a 2D-to-3D feature lifting stage for scene understanding. However, they generate excessive redundant Gaussians, causing high memory overhead and sub-optimal multi-view feature aggregation, leading to degraded novel view synthesis and scene understanding performance. We propose C3G, a novel feed-forward framework that estimates compact 3D Gaussians only at essential spatial locations, minimizing redundancy while enabling effective feature lifting. We introduce learnable tokens that aggregate multi-view features through self-attention to guide Gaussian generation, ensuring each Gaussian integrates relevant visual features across views. We then exploit the learned attention patterns for Gaussian decoding to efficiently lift features. Extensive experiments on pose-free novel view synthesis, 3D open-vocabulary segmentation, and view-invariant feature aggregation demonstrate our approach's effectiveness. Results show that a compact yet geometrically meaningful representation is sufficient for high-quality scene reconstruction and understanding, achieving superior memory efficiency and feature fidelity compared to existing methods.