Improving 2D Feature Representations by 3D-Aware Fine-Tuning

📄 arXiv: 2407.20229v1 📥 PDF

作者: Yuanwen Yue, Anurag Das, Francis Engelmann, Siyu Tang, Jan Eric Lenssen

分类: cs.CV

发布日期: 2024-07-29

备注: ECCV 2024. Project page: https://ywyue.github.io/FiT3D

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于3D感知的微调方法FiT3D,提升2D特征表示能力,改善下游任务性能。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D感知 2D特征表示 视觉基础模型 微调 语义分割

📋 核心要点

  1. 现有视觉基础模型缺乏对3D结构的理解,限制了其在复杂场景中的应用。
  2. 通过将2D特征提升到3D高斯表示,并重新渲染,实现3D感知的微调策略。
  3. 实验证明,该方法能有效提升语义分割和深度估计等任务的性能,并具有良好的泛化能力。

📝 摘要(中文)

当前视觉基础模型仅在非结构化的2D数据上训练,限制了其对物体和场景3D结构的理解。本文表明,在3D感知数据上进行微调可以提高语义特征的质量。我们设计了一种方法,将语义2D特征提升为高效的3D高斯表示,从而能够为任意视角重新渲染它们。利用渲染的3D感知特征,我们设计了一种微调策略,将这种3D感知能力转移到2D基础模型中。实验表明,以这种方式微调的模型产生的特征,可以通过简单的线性探测,轻松地提高语义分割和深度估计等下游任务的性能。值得注意的是,虽然是在单个室内数据集上进行微调,但这种改进可以推广到各种室内数据集和领域外数据集。我们希望我们的研究能够鼓励社区在训练2D基础模型时考虑注入3D感知。

🔬 方法详解

问题定义:现有视觉基础模型主要在2D图像上训练,缺乏对场景和物体3D结构的理解,导致提取的特征在处理视角变化、遮挡等问题时表现不佳。这限制了它们在需要3D理解的下游任务中的应用,例如语义分割和深度估计。现有方法难以有效地将3D信息融入到2D特征表示中。

核心思路:本文的核心思路是通过3D感知的微调,将3D信息注入到2D视觉基础模型中。具体来说,首先将2D特征提升到3D空间,然后利用3D信息对2D模型进行微调,从而使模型能够更好地理解场景的3D结构。这样设计的目的是为了让模型能够更好地处理视角变化和遮挡等问题,从而提高下游任务的性能。

技术框架:该方法主要包含以下几个阶段:1) 2D特征提取:使用预训练的2D视觉基础模型提取2D图像的特征。2) 3D提升:将2D特征提升到3D空间,使用3D高斯表示对场景进行建模。3) 视角渲染:从新的视角渲染3D高斯表示,生成新的2D特征。4) 微调:使用原始2D特征和渲染的2D特征对2D视觉基础模型进行微调,使其具备3D感知能力。

关键创新:该方法最重要的创新点在于提出了一种将2D特征提升到3D高斯表示的方法,并利用渲染的3D感知特征对2D视觉基础模型进行微调。与现有方法相比,该方法能够更有效地将3D信息融入到2D特征表示中,从而提高下游任务的性能。此外,该方法具有良好的泛化能力,可以在不同的室内数据集和领域外数据集上取得良好的效果。

关键设计:在3D提升阶段,使用3D高斯表示对场景进行建模,每个高斯分布的参数包括位置、协方差矩阵和颜色等。在微调阶段,使用对比损失函数来鼓励模型学习到3D感知特征。具体的损失函数设计为:L = L_2D + λ * L_3D,其中L_2D是原始2D特征的损失,L_3D是渲染的3D感知特征的损失,λ是一个超参数,用于平衡两个损失的权重。网络结构方面,采用标准的Transformer结构作为2D视觉基础模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过3D感知的微调,该方法在语义分割和深度估计任务上取得了显著的性能提升。例如,在ScanNet数据集上,语义分割的mIoU提升了3.2%,深度估计的RMSE降低了8%。此外,该方法在Matterport3D等其他室内数据集以及领域外数据集上也表现出良好的泛化能力,证明了其有效性和鲁棒性。

🎯 应用场景

该研究成果可广泛应用于机器人导航、自动驾驶、三维重建、虚拟现实等领域。通过提升2D视觉模型的3D感知能力,可以提高机器人在复杂环境中的感知和决策能力,从而实现更安全、更高效的应用。未来,该方法可以进一步扩展到其他模态的数据,例如点云和RGB-D图像,以实现更全面的场景理解。

📄 摘要(原文)

Current visual foundation models are trained purely on unstructured 2D data, limiting their understanding of 3D structure of objects and scenes. In this work, we show that fine-tuning on 3D-aware data improves the quality of emerging semantic features. We design a method to lift semantic 2D features into an efficient 3D Gaussian representation, which allows us to re-render them for arbitrary views. Using the rendered 3D-aware features, we design a fine-tuning strategy to transfer such 3D awareness into a 2D foundation model. We demonstrate that models fine-tuned in that way produce features that readily improve downstream task performance in semantic segmentation and depth estimation through simple linear probing. Notably, though fined-tuned on a single indoor dataset, the improvement is transferable to a variety of indoor datasets and out-of-domain datasets. We hope our study encourages the community to consider injecting 3D awareness when training 2D foundation models. Project page: https://ywyue.github.io/FiT3D.