Feat2GS: Probing Visual Foundation Models with Gaussian Splatting
作者: Yue Chen, Xingyu Chen, Anpei Chen, Gerard Pons-Moll, Yuliang Xiu
分类: cs.CV
发布日期: 2024-12-12
备注: Project Page: https://fanegg.github.io/Feat2GS/
期刊: Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025
DOI: 10.1109/CVPR52734.2025.00595
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Feat2GS:利用高斯溅射探究视觉基础模型的3D感知能力
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉基础模型 3D感知 高斯溅射 新视角合成 特征提取
📋 核心要点
- 现有3D感知探究方法忽略纹理信息,且依赖3D ground-truth数据,限制了评估的规模和多样性。
- Feat2GS从VFM特征中提取3D高斯属性,通过新视角合成探究几何和纹理的3D感知能力,无需3D数据。
- 实验表明,Feat2GS能有效探究VFMs的3D感知能力,并可作为新视角合成的有效基线,实现SOTA性能。
📝 摘要(中文)
视觉基础模型(VFMs)在海量数据集上训练,但通常仅限于2D图像。因此,一个自然的问题是:它们对3D世界的理解程度如何?由于架构和训练协议(即目标、代理任务)的差异,迫切需要一个统一的框架来公平且全面地探究它们的3D感知能力。现有的3D探究工作侧重于单视图2.5D估计(例如,深度和法线)或双视图稀疏2D对应(例如,匹配和跟踪)。然而,这些任务忽略了纹理感知,并且需要3D数据作为ground-truth,这限制了评估集的规模和多样性。为了解决这些问题,我们引入了Feat2GS,它从无姿态图像中提取的VFM特征中读取3D高斯属性。这使我们能够通过新视角合成来探究几何和纹理的3D感知能力,而无需3D数据。此外,3DGS参数(几何$oldsymbol{x}, α, Σ$和纹理$oldsymbol{c}$)的解耦能够分别分析纹理和几何感知。在Feat2GS下,我们进行了广泛的实验来探究几种VFMs的3D感知能力,并研究了导致具有3D感知能力的VFM的要素。基于这些发现,我们开发了几种变体,在不同的数据集上实现了最先进的性能。这使得Feat2GS可用于探究VFMs,并且可以作为新视角合成的简单而有效的基线。
🔬 方法详解
问题定义:论文旨在解决如何有效评估视觉基础模型(VFMs)对3D世界的理解程度的问题。现有方法主要集中在单视图2.5D估计或双视图稀疏2D对应,忽略了纹理信息,并且需要3D数据作为ground-truth,限制了评估数据集的规模和多样性。这些方法无法充分且公平地探究VFMs的3D感知能力。
核心思路:论文的核心思路是利用3D高斯溅射(3D Gaussian Splatting, 3DGS)作为中间表示,从VFMs提取的特征中推断出3D高斯参数,并通过新视角合成来评估VFMs对几何和纹理的感知能力。这种方法无需3D ground-truth数据,并且能够解耦几何和纹理信息,从而可以分别分析VFMs对这两方面的感知能力。
技术框架:Feat2GS框架主要包含以下几个步骤:1) 从无姿态的2D图像中提取VFM特征;2) 将提取的特征映射到3D高斯参数,包括位置、不透明度、协方差矩阵和颜色;3) 使用3DGS进行新视角合成;4) 通过比较合成图像和真实图像来评估VFMs的3D感知能力。框架的关键在于特征到3D高斯参数的映射,以及3DGS的渲染过程。
关键创新:Feat2GS的主要创新点在于:1) 提出了一种无需3D ground-truth数据的3D感知能力评估方法;2) 利用3DGS作为中间表示,能够解耦几何和纹理信息,从而可以分别分析VFMs对这两方面的感知能力;3) 提供了一个统一的框架,可以公平地比较不同VFMs的3D感知能力。与现有方法相比,Feat2GS更全面、更灵活,并且能够处理更大规模和更多样化的数据集。
关键设计:在特征到3D高斯参数的映射过程中,可以使用不同的网络结构,例如MLP或卷积神经网络。损失函数通常包括图像重建损失(例如L1损失或感知损失)和正则化项(例如总变分损失)。3DGS的渲染过程采用可微分渲染,以便可以通过梯度下降优化3D高斯参数。论文中还探索了不同的VFM特征提取方法,并分析了它们对3D感知能力的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Feat2GS能够有效探究不同VFMs的3D感知能力。通过分析不同VFM的性能,论文发现某些VFM在几何感知方面表现更好,而另一些在纹理感知方面表现更好。基于这些发现,论文开发了几种变体,在不同的新视角合成数据集上实现了state-of-the-art的性能,例如在XXXX数据集上,PSNR指标提升了X%。
🎯 应用场景
Feat2GS可应用于评估和提升视觉基础模型的3D理解能力,从而促进机器人导航、自动驾驶、虚拟现实和增强现实等领域的发展。通过该方法,可以更好地理解不同VFM的优缺点,并指导VFMs的设计和训练,使其更好地适应3D场景。
📄 摘要(原文)
Given that visual foundation models (VFMs) are trained on extensive datasets but often limited to 2D images, a natural question arises: how well do they understand the 3D world? With the differences in architecture and training protocols (i.e., objectives, proxy tasks), a unified framework to fairly and comprehensively probe their 3D awareness is urgently needed. Existing works on 3D probing suggest single-view 2.5D estimation (e.g., depth and normal) or two-view sparse 2D correspondence (e.g., matching and tracking). Unfortunately, these tasks ignore texture awareness, and require 3D data as ground-truth, which limits the scale and diversity of their evaluation set. To address these issues, we introduce Feat2GS, which readout 3D Gaussians attributes from VFM features extracted from unposed images. This allows us to probe 3D awareness for geometry and texture via novel view synthesis, without requiring 3D data. Additionally, the disentanglement of 3DGS parameters - geometry ($\boldsymbol{x}, α, Σ$) and texture ($\boldsymbol{c}$) - enables separate analysis of texture and geometry awareness. Under Feat2GS, we conduct extensive experiments to probe the 3D awareness of several VFMs, and investigate the ingredients that lead to a 3D aware VFM. Building on these findings, we develop several variants that achieve state-of-the-art across diverse datasets. This makes Feat2GS useful for probing VFMs, and as a simple-yet-effective baseline for novel-view synthesis. Code and data will be made available at https://fanegg.github.io/Feat2GS/.