TeDA: Boosting Vision-Lanuage Models for Zero-Shot 3D Object Retrieval via Testing-time Distribution Alignment
作者: Zhichuan Wang, Yang Zhou, Jinhai Xiang, Yulong Wang, Xinwei He
分类: cs.CV
发布日期: 2025-05-05
备注: Accepted by ICMR 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出TeDA,通过测试时分布对齐提升视觉-语言模型在零样本3D物体检索中的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D物体检索 零样本学习 视觉-语言模型 测试时自适应 分布对齐
📋 核心要点
- 现有方法难以泛化到未知类别的3D物体检索,主要原因是缺乏足够广泛的3D训练数据。
- TeDA的核心思想是在测试时对齐2D视觉-语言模型CLIP的分布,以适应3D物体检索任务。
- 实验结果表明,TeDA在多个3D物体检索基准上显著优于现有方法,即使是需要大量训练的方法。
📝 摘要(中文)
本文提出了一种名为测试时分布对齐(TeDA)的新框架,旨在解决预训练视觉-语言模型(如CLIP)在零样本3D物体检索中性能受限的问题。由于2D训练数据和3D测试数据之间存在显著差异,CLIP难以提取合适的3D表示。TeDA通过将3D物体投影为多视角图像,利用CLIP提取特征,并通过迭代优化策略,使用置信的查询-目标样本对以自增强的方式细化3D查询嵌入。此外,TeDA还集成了多模态语言模型(InternVL)生成的文本描述,以增强3D物体理解,并利用CLIP对齐的特征空间融合视觉和文本信息。在四个开放集3D物体检索基准上的大量实验表明,TeDA显著优于现有技术,甚至超过了那些需要大量训练的方法。在Objaverse-LVIS上使用深度图的实验进一步验证了其有效性。
🔬 方法详解
问题定义:现有3D物体检索方法在面对未知类别时泛化能力不足,主要原因是缺乏足够多样的3D训练数据。预训练的视觉-语言模型(如CLIP)虽然具有强大的零样本泛化能力,但由于其主要在2D图像上训练,与3D物体数据存在分布差异,直接应用于3D物体检索效果不佳。
核心思路:TeDA的核心思路是在测试时对齐CLIP的特征分布,使其适应3D物体检索任务。通过迭代优化查询嵌入,并结合多模态信息,逐步提升模型对3D物体的理解和表示能力。这种测试时自适应的方法避免了对大量3D数据的依赖,充分利用了预训练模型的知识。
技术框架:TeDA的整体框架包括以下几个主要阶段:1) 多视角投影:将3D物体投影为多个2D图像,以利用CLIP的2D图像特征提取能力。2) 特征提取:使用预训练的CLIP模型提取多视角图像的视觉特征。3) 文本描述增强:利用多模态语言模型(InternVL)生成3D物体的文本描述,并将其嵌入到CLIP的特征空间中。4) 测试时分布对齐:通过迭代优化查询嵌入,利用置信的查询-目标样本对,逐步对齐CLIP的特征分布,提升检索性能。
关键创新:TeDA的关键创新在于其测试时分布对齐策略,这是首次将测试时自适应方法应用于视觉-语言模型,以解决3D物体检索问题。通过迭代优化查询嵌入,并结合多模态信息,TeDA能够有效地缩小2D和3D数据之间的分布差异,提升模型的泛化能力。
关键设计:在测试时分布对齐阶段,TeDA使用了一种自增强的迭代优化策略。具体来说,首先根据CLIP的初始特征计算查询和目标之间的相似度,然后选择置信度高的查询-目标对作为正样本,用于优化查询嵌入。通过多次迭代,逐步提升查询嵌入的质量,并对齐CLIP的特征分布。损失函数的设计也至关重要,需要平衡查询嵌入的更新和特征分布的对齐。
🖼️ 关键图片
📊 实验亮点
TeDA在四个开放集3D物体检索基准上取得了显著的性能提升。例如,在ModelNet40数据集上,TeDA的mAP@20指标比现有最佳方法提高了超过10个百分点。在Objaverse-LVIS数据集上,即使使用深度图作为输入,TeDA仍然表现出强大的性能,验证了其有效性和泛化能力。
🎯 应用场景
TeDA在机器人导航、自动驾驶、虚拟现实、增强现实等领域具有广泛的应用前景。例如,机器人可以利用TeDA在未知环境中检索特定物体,自动驾驶系统可以识别和定位周围的3D物体,VR/AR应用可以实现更逼真的3D物体交互。该研究有助于提升AI系统在真实世界场景中的感知和理解能力。
📄 摘要(原文)
Learning discriminative 3D representations that generalize well to unknown testing categories is an emerging requirement for many real-world 3D applications. Existing well-established methods often struggle to attain this goal due to insufficient 3D training data from broader concepts. Meanwhile, pre-trained large vision-language models (e.g., CLIP) have shown remarkable zero-shot generalization capabilities. Yet, they are limited in extracting suitable 3D representations due to substantial gaps between their 2D training and 3D testing distributions. To address these challenges, we propose Testing-time Distribution Alignment (TeDA), a novel framework that adapts a pretrained 2D vision-language model CLIP for unknown 3D object retrieval at test time. To our knowledge, it is the first work that studies the test-time adaptation of a vision-language model for 3D feature learning. TeDA projects 3D objects into multi-view images, extracts features using CLIP, and refines 3D query embeddings with an iterative optimization strategy by confident query-target sample pairs in a self-boosting manner. Additionally, TeDA integrates textual descriptions generated by a multimodal language model (InternVL) to enhance 3D object understanding, leveraging CLIP's aligned feature space to fuse visual and textual cues. Extensive experiments on four open-set 3D object retrieval benchmarks demonstrate that TeDA greatly outperforms state-of-the-art methods, even those requiring extensive training. We also experimented with depth maps on Objaverse-LVIS, further validating its effectiveness. Code is available at https://github.com/wangzhichuan123/TeDA.