Unifying 2D and 3D Vision-Language Understanding

作者: Ayush Jain, Alexander Swerdlow, Yuzhou Wang, Sergio Arnaud, Ada Martin, Alexander Sax, Franziska Meier, Katerina Fragkiadaki

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-03-13 (更新: 2025-06-08)

备注: The first two authors contributed equally

💡 一句话要点

提出UniVLG，统一2D和3D视觉-语言理解，提升3D场景理解性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D视觉-语言理解 2D-3D统一 迁移学习 掩码预测 具身智能

📋 核心要点

3D视觉-语言学习受限于大规模3D数据集的稀缺，阻碍了相关领域的发展。
UniVLG通过统一的架构和2D-3D知识迁移，利用2D预训练模型和数据增强3D视觉-语言理解。
实验表明，UniVLG在多个3D视觉-语言任务上达到SOTA，且联合训练提升了2D和3D性能。

📝 摘要（中文）

本文提出了一种统一的2D和3D视觉-语言理解架构UniVLG，旨在弥合现有以2D为中心的模型与具身系统中丰富的3D感知数据之间的差距。该方法通过从预训练的2D模型初始化大部分模型权重，并在2D和3D视觉-语言数据上进行训练。论文提出了一种新颖的语言条件掩码解码器，该解码器在2D和3D模态之间共享，以有效地在RGB和RGB-D图像中定位对象，优于基于框的方法。为了进一步缩小2D和3D之间的领域差距，本文结合了2D到3D的提升策略，使UniVLG能够利用2D数据来增强3D性能。实验结果表明，该模型在多个3D视觉-语言定位任务中实现了最先进的性能，证明了将2D视觉-语言学习的进展转移到数据受限的3D领域的潜力。此外，在2D和3D数据上进行联合训练可以提高跨模态的性能，而不会牺牲2D能力。UniVLG通过消除对3D网格重建和ground-truth对象提议的依赖，为现实的、具身对齐的评估设定了新标准。

🔬 方法详解

问题定义：现有的3D视觉-语言理解模型受限于大规模3D数据集的匮乏，难以充分利用深度学习的优势。同时，2D视觉-语言模型发展迅速，但难以直接应用于3D场景理解。现有方法通常依赖于3D网格重建或ground-truth对象提议，限制了其在真实具身环境中的应用。

核心思路：UniVLG的核心思路是利用2D视觉-语言模型的预训练权重和大规模2D数据集，通过迁移学习和领域适配，提升3D视觉-语言理解的性能。通过统一的架构和共享的语言条件掩码解码器，实现2D和3D模态之间的知识共享和协同训练。

技术框架：UniVLG的整体架构包含视觉编码器、语言编码器和语言条件掩码解码器。视觉编码器分别处理2D和3D图像，语言编码器处理文本描述。语言条件掩码解码器接收视觉和语言特征，生成对象掩码。为了缩小2D和3D之间的领域差距，采用了2D到3D的提升策略，将2D信息融入3D特征中。

关键创新：UniVLG的关键创新在于：1) 统一的2D和3D视觉-语言理解架构，能够同时处理2D和3D数据；2) 共享的语言条件掩码解码器，能够有效地在RGB和RGB-D图像中定位对象；3) 2D到3D的提升策略，能够利用2D数据增强3D性能。与现有方法相比，UniVLG无需依赖3D网格重建和ground-truth对象提议，更适用于真实具身环境。

关键设计：语言条件掩码解码器采用Transformer结构，输入为视觉特征和语言特征，输出为对象掩码。2D到3D的提升策略通过将2D图像的特征投影到3D点云上，增强3D特征的表达能力。损失函数包括掩码预测损失和对比学习损失，用于优化模型参数。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

UniVLG在多个3D视觉-语言定位任务中取得了SOTA性能，证明了其有效性。与现有方法相比，UniVLG在性能上取得了显著提升，并且无需依赖3D网格重建和ground-truth对象提议，更适用于真实具身环境。此外，联合训练2D和3D数据能够提高跨模态的性能，而不会牺牲2D能力。

🎯 应用场景

UniVLG在机器人导航、虚拟现实、增强现实等领域具有广泛的应用前景。例如，机器人可以利用UniVLG理解人类的指令，并在3D环境中定位和操作物体。在虚拟现实和增强现实中，UniVLG可以实现更自然的人机交互，提升用户体验。该研究有助于推动具身智能的发展，使机器能够更好地理解和融入人类生活。

📄 摘要（原文）

Progress in 3D vision-language learning has been hindered by the scarcity of large-scale 3D datasets. We introduce UniVLG, a unified architecture for 2D and 3D vision-language understanding that bridges the gap between existing 2D-centric models and the rich 3D sensory data available in embodied systems. Our approach initializes most model weights from pre-trained 2D models and trains on both 2D and 3D vision-language data. We propose a novel language-conditioned mask decoder shared across 2D and 3D modalities to ground objects effectively in both RGB and RGB-D images, outperforming box-based approaches. To further reduce the domain gap between 2D and 3D, we incorporate 2D-to-3D lifting strategies, enabling UniVLG to utilize 2D data to enhance 3D performance. With these innovations, our model achieves state-of-the-art performance across multiple 3D vision-language grounding tasks, demonstrating the potential of transferring advances from 2D vision-language learning to the data-constrained 3D domain. Furthermore, co-training on both 2D and 3D data enhances performance across modalities without sacrificing 2D capabilities. By removing the reliance on 3D mesh reconstruction and ground-truth object proposals, UniVLG sets a new standard for realistic, embodied-aligned evaluation. Code and additional visualizations are available at https://univlg.github.io .

Unifying 2D and 3D Vision-Language Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理