CF3: Compact and Fast 3D Feature Fields
作者: Hyunjoon Lee, Joonkyu Min, Jaesik Park
分类: cs.CV, cs.AI
发布日期: 2025-08-07 (更新: 2025-09-02)
备注: ICCV 2025, Project Page: https://jjoonii.github.io/cf3-website/
💡 一句话要点
CF3:提出一种紧凑快速的3D高斯特征场构建方法,提升效率并保持几何细节。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D高斯溅射 特征场 自编码器 稀疏化 三维重建
📋 核心要点
- 现有方法依赖于自底向上的优化过程,将原始2D特征视为真值,导致计算成本增加。
- CF3采用自顶向下的流程,通过预训练高斯模型的快速加权融合多视角2D特征,直接在3D空间训练自编码器。
- 引入自适应稀疏化方法,优化高斯属性并修剪冗余高斯模型,在保证几何细节的同时,显著减少高斯数量。
📝 摘要(中文)
本文提出了一种构建紧凑快速的3D高斯特征场(CF3)的自顶向下流程。该方法首先对预训练高斯模型进行快速加权融合多视角2D特征。这种方法可以直接在提升后的特征上训练每个高斯模型的自编码器,而不是在2D域中训练自编码器,从而使自编码器更好地与特征分布对齐。更重要的是,本文引入了一种自适应稀疏化方法,该方法在修剪和合并冗余高斯模型的同时,优化特征场的高斯属性,从而构建出一种高效的表示,并保留了几何细节。与Feature-3DGS相比,该方法仅使用5%的高斯模型即可实现具有竞争力的3D特征场。
🔬 方法详解
问题定义:现有基于3D高斯溅射(3DGS)的方法开始融合2D基础模型中的丰富信息,但大多采用自底向上的优化方式,直接将原始2D特征作为真值进行处理。这种方式计算成本高昂,效率较低,难以实现紧凑的3D特征表示。
核心思路:CF3的核心思路是采用自顶向下的方式构建3D高斯特征场。首先利用预训练的高斯模型,将多视角的2D特征快速融合到3D空间中。然后,直接在3D空间中训练高斯模型的自编码器,避免了在2D空间训练自编码器带来的特征分布不匹配问题。最后,通过自适应稀疏化方法,去除冗余的高斯模型,进一步压缩模型大小。
技术框架:CF3的整体流程包括以下几个阶段:1) 2D特征提取:从多视角图像中提取2D特征。2) 3D特征提升:利用预训练的3D高斯模型,对2D特征进行加权融合,将其提升到3D空间。3) 自编码器训练:在提升后的3D特征上,训练每个高斯模型的自编码器,学习特征的紧凑表示。4) 自适应稀疏化:根据高斯模型的属性和特征表示的冗余程度,进行高斯模型的修剪和合并,实现模型的稀疏化。
关键创新:CF3的关键创新在于:1) 自顶向下的特征融合:避免了自底向上优化带来的计算负担,提高了效率。2) 3D空间自编码器训练:直接在3D空间训练自编码器,更好地对齐了特征分布。3) 自适应稀疏化:在保证几何细节的同时,显著减少了高斯模型的数量,实现了紧凑的表示。
关键设计:1) 加权融合:使用高斯模型的透明度作为权重,对多视角的2D特征进行加权融合。2) 自编码器结构:采用标准的自编码器结构,输入为提升后的3D特征,输出为重构的3D特征。3) 稀疏化策略:根据高斯模型的透明度和特征表示的方差,计算每个高斯模型的重要性,并根据重要性进行修剪和合并。损失函数包括重构损失和正则化损失,用于约束自编码器的训练和稀疏化过程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CF3在保持竞争力的3D特征场质量的同时,显著减少了高斯模型的数量。与Feature-3DGS相比,CF3仅使用5%的高斯模型即可达到相似甚至更好的性能。这表明CF3能够有效地构建紧凑的3D特征表示,并显著降低计算成本。
🎯 应用场景
CF3具有广泛的应用前景,例如:三维重建、场景理解、虚拟现实、增强现实、机器人导航等。通过构建紧凑快速的3D特征场,可以为这些应用提供高效的几何和语义信息,从而提升性能和用户体验。未来,CF3可以进一步扩展到动态场景和大规模场景,并与其他模态的信息进行融合,实现更强大的三维感知能力。
📄 摘要(原文)
3D Gaussian Splatting (3DGS) has begun incorporating rich information from 2D foundation models. However, most approaches rely on a bottom-up optimization process that treats raw 2D features as ground truth, incurring increased computational costs. We propose a top-down pipeline for constructing compact and fast 3D Gaussian feature fields, namely, CF3. We first perform a fast weighted fusion of multi-view 2D features with pre-trained Gaussians. This approach enables training a per-Gaussian autoencoder directly on the lifted features, instead of training autoencoders in the 2D domain. As a result, the autoencoder better aligns with the feature distribution. More importantly, we introduce an adaptive sparsification method that optimizes the Gaussian attributes of the feature field while pruning and merging the redundant Gaussians, constructing an efficient representation with preserved geometric details. Our approach achieves a competitive 3D feature field using as little as 5% of the Gaussians compared to Feature-3DGS.