UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting

📄 arXiv: 2502.17860v2 📥 PDF

作者: Haoyuan Li, Yanpeng Zhou, Tao Tang, Jifei Song, Yihan Zeng, Michael Kampffmeyer, Hang Xu, Xiaodan Liang

分类: cs.CV

发布日期: 2025-02-25 (更新: 2025-02-27)

备注: ICLR 2025; Corrected citation of Uni3D;


💡 一句话要点

UniGS:提出基于高斯溅射的统一语言-图像-3D预训练方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多模态预训练 3D高斯溅射 语言-图像-3D 跨模态对齐 3D场景理解

📋 核心要点

  1. 现有3D多模态预训练方法依赖点云表示,无法充分捕捉3D世界的复杂细节,且与2D图像存在较大差异。
  2. UniGS利用3D高斯溅射(3DGS)表示3D场景,建立3D高斯集合与2D图像的强连接,从而增强3D表示。
  3. 实验表明,UniGS在零样本分类、文本驱动检索和开放世界理解等任务上显著优于现有SOTA方法Uni3D。

📝 摘要(中文)

本文提出UniGS,一种利用3D高斯溅射(3DGS)增强3D表示的多模态预训练方法。针对现有方法采用点云作为3D表示,无法充分捕捉3D世界的复杂性,且离散点与图像的稠密像素之间存在明显差距的问题,UniGS将3D世界建模为带有颜色和不透明度的3D高斯集合,在包含3D场景所有信息的同时,与2D图像建立强连接。UniGS首先利用预训练的视觉-语言模型,通过大量的真实图像-文本对建立共享的视觉和文本空间。然后,UniGS使用3D编码器将优化的3DGS与语言-图像表示对齐,以学习统一的多模态表示。此外,引入高斯感知引导模块,引导3D编码器提取全局显式3D特征,实现更好的跨模态对齐。在Objaverse、ABO、MVImgNet和SUN RGBD数据集上的大量实验表明,UniGS在学习更通用和更强的对齐多模态表示方面是有效的。UniGS在零样本分类、文本驱动检索和开放世界理解等不同的3D任务上取得了领先的结果,相比之前的SOTA方法Uni3D,取得了显著的改进,包括零样本分类(+9.36%),文本驱动检索(+4.3%)和开放世界理解(+7.92%)。

🔬 方法详解

问题定义:现有基于点云的3D多模态预训练方法存在两个主要痛点:一是点云作为离散的3D表示,难以捕捉真实世界3D结构的连续性和细节;二是点云与2D图像的像素之间存在较大的表示差异,不利于跨模态信息的融合。

核心思路:UniGS的核心思路是利用3D高斯溅射(3DGS)作为3D场景的表示。3DGS能够以一组带有颜色和不透明度的高斯分布来建模3D场景,既能保留3D结构的细节,又能通过渲染与2D图像建立直接的联系。通过将3DGS与预训练的视觉-语言模型对齐,可以学习到统一的语言-图像-3D多模态表示。

技术框架:UniGS的整体框架包含以下几个主要阶段:1) 利用预训练的视觉-语言模型(如CLIP)建立共享的视觉和文本表示空间;2) 使用3DGS表示3D场景,并通过优化算法得到高质量的3DGS表示;3) 使用3D编码器提取3DGS的特征;4) 通过对比学习等方法,将3DGS特征与视觉-语言模型的特征对齐,从而学习到统一的多模态表示。

关键创新:UniGS的关键创新在于将3DGS引入到多模态预训练中,从而克服了点云表示的局限性。此外,论文还提出了一个高斯感知引导模块,用于指导3D编码器学习更精细的3D特征,从而提升跨模态对齐的效果。

关键设计:高斯感知引导模块的具体实现方式未知,但其核心思想是利用3DGS的参数(如位置、颜色、不透明度等)来指导3D编码器的学习。损失函数方面,可能采用了对比学习损失,用于拉近相似模态的特征,推远不相似模态的特征。具体的网络结构细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniGS在Objaverse、ABO、MVImgNet和SUN RGBD等数据集上进行了广泛的实验,结果表明UniGS在零样本分类、文本驱动检索和开放世界理解等任务上均取得了显著的提升。例如,在零样本分类任务上,UniGS相比之前的SOTA方法Uni3D提升了9.36%;在文本驱动检索任务上,提升了4.3%;在开放世界理解任务上,提升了7.92%。

🎯 应用场景

UniGS具有广泛的应用前景,例如:机器人导航与场景理解,可以使机器人更好地理解周围环境;虚拟现实与增强现实,可以生成更逼真的3D场景;3D内容创作,可以辅助设计师快速创建高质量的3D模型;自动驾驶,可以提升自动驾驶系统对周围环境的感知能力。

📄 摘要(原文)

Recent advancements in multi-modal 3D pre-training methods have shown promising efficacy in learning joint representations of text, images, and point clouds. However, adopting point clouds as 3D representation fails to fully capture the intricacies of the 3D world and exhibits a noticeable gap between the discrete points and the dense 2D pixels of images. To tackle this issue, we propose UniGS, integrating 3D Gaussian Splatting (3DGS) into multi-modal pre-training to enhance the 3D representation. We first rely on the 3DGS representation to model the 3D world as a collection of 3D Gaussians with color and opacity, incorporating all the information of the 3D scene while establishing a strong connection with 2D images. Then, to achieve Language-Image-3D pertaining, UniGS starts with a pre-trained vision-language model to establish a shared visual and textual space through extensive real-world image-text pairs. Subsequently, UniGS employs a 3D encoder to align the optimized 3DGS with the Language-Image representations to learn unified multi-modal representations. To facilitate the extraction of global explicit 3D features by the 3D encoder and achieve better cross-modal alignment, we additionally introduce a novel Gaussian-Aware Guidance module that guides the learning of fine-grained representations of the 3D domain. Through extensive experiments across the Objaverse, ABO, MVImgNet and SUN RGBD datasets with zero-shot classification, text-driven retrieval and open-world understanding tasks, we demonstrate the effectiveness of UniGS in learning a more general and stronger aligned multi-modal representation. Specifically, UniGS achieves leading results across different 3D tasks with remarkable improvements over previous SOTA, Uni3D, including on zero-shot classification (+9.36%), text-driven retrieval (+4.3%) and open-world understanding (+7.92%).