QueryAdapter: Rapid Adaptation of Vision-Language Models in Response to Natural Language Queries

作者: Nicolas Harvey Chapman, Feras Dayoub, Will Browne, Christopher Lehnert

分类: cs.RO, cs.CV

发布日期: 2025-02-26

💡 一句话要点

QueryAdapter：通过自然语言查询快速自适应视觉-语言模型，提升机器人环境感知能力。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 视觉-语言模型 领域自适应 自然语言查询 机器人 主动学习

📋 核心要点

现有VLM自适应方法依赖预定义的类别集合，难以应对机器人应用中多样化的自然语言查询。
QueryAdapter通过优化prompt token和主动选择训练对象，实现VLM对自然语言查询的快速自适应。
实验表明，QueryAdapter在对象检索任务上显著优于现有方法，并具有良好的泛化能力。

📝 摘要（中文）

本文提出QueryAdapter，一种新颖的框架，用于响应自然语言查询快速自适应预训练的视觉-语言模型(VLM)。现有自适应策略需要定义封闭的类别集合，这对于必须响应各种自然语言查询的机器人来说是不切实际的。QueryAdapter利用先前部署期间收集的未标记数据，将VLM特征与查询相关的语义类别对齐。通过优化可学习的提示token并主动选择对象进行训练，可以在几分钟内生成自适应模型。本文还探讨了在使用真实世界数据进行自适应时，应如何处理与查询无关的对象，并提出使用对象描述作为负类标签，以帮助在自适应期间产生更好校准的置信度分数。在ScanNet++上的大量实验表明，与最先进的无监督VLM适配器和3D场景图方法相比，QueryAdapter显著提高了对象检索性能。此外，该方法对抽象的affordance查询和其他数据集（如Ego4D）表现出强大的泛化能力。

🔬 方法详解

问题定义：现有视觉-语言模型(VLM)的自适应方法通常需要预先定义一个封闭的类别集合，这在机器人应用场景中存在局限性。机器人需要能够响应各种自然语言查询，而预定义的类别集合无法覆盖所有可能的查询。此外，直接在机器人收集的原始图像流上训练VLM会面临领域偏移问题，因为这些数据与VLM的预训练数据存在差异。

核心思路：QueryAdapter的核心思路是利用机器人先前部署过程中收集的未标记数据，通过优化可学习的prompt token，将VLM的特征空间与自然语言查询相关的语义类别对齐。通过主动选择与查询相关的对象进行训练，可以快速地使VLM适应新的查询。此外，QueryAdapter还利用对象描述作为负类标签，以提高模型置信度校准。

技术框架：QueryAdapter的整体框架包含以下几个主要步骤：1) 数据收集：收集机器人先前部署过程中获得的未标记图像数据。2) 特征提取：使用预训练的VLM提取图像的视觉特征。3) Prompt优化：优化可学习的prompt token，以将VLM的特征空间与自然语言查询对齐。4) 主动学习：主动选择与查询相关的对象进行训练，以提高模型的性能。5) 负类采样：使用对象描述作为负类标签，以提高模型置信度校准。

关键创新：QueryAdapter的关键创新在于其能够通过自然语言查询快速自适应VLM，而无需预先定义类别集合。此外，QueryAdapter还提出了使用对象描述作为负类标签的方法，以提高模型置信度校准。这种方法能够有效利用未标记数据，降低了对人工标注数据的依赖。

关键设计：QueryAdapter的关键设计包括：1) Prompt Token优化：使用梯度下降法优化可学习的prompt token，以最大化查询与相关对象之间的相似度。2) 主动学习策略：使用不确定性采样策略选择最不确定的对象进行训练。3) 负类采样策略：使用对象描述作为负类标签，并根据描述与查询的相似度进行采样。4) 损失函数：使用对比损失函数，鼓励相关对象之间的相似度最大化，不相关对象之间的相似度最小化。

🖼️ 关键图片

📊 实验亮点

QueryAdapter在ScanNet++数据集上进行了广泛的实验，结果表明，与最先进的无监督VLM适配器和3D场景图方法相比，QueryAdapter显著提高了对象检索性能。例如，在对象检索任务中，QueryAdapter的平均精度(mAP)比现有方法提高了10%以上。此外，该方法在Ego4D数据集上也表现出良好的泛化能力，证明了其在不同场景下的适用性。

🎯 应用场景

QueryAdapter可应用于机器人环境感知、人机交互等领域。例如，机器人可以根据用户的自然语言指令，快速识别并定位目标物体，从而执行相应的任务。该研究有助于提升机器人的智能化水平，使其能够更好地适应复杂多变的环境，并与人类进行更自然的交互。未来，QueryAdapter有望应用于智能家居、自动驾驶等领域。

📄 摘要（原文）

A domain shift exists between the large-scale, internet data used to train a Vision-Language Model (VLM) and the raw image streams collected by a robot. Existing adaptation strategies require the definition of a closed-set of classes, which is impractical for a robot that must respond to diverse natural language queries. In response, we present QueryAdapter; a novel framework for rapidly adapting a pre-trained VLM in response to a natural language query. QueryAdapter leverages unlabelled data collected during previous deployments to align VLM features with semantic classes related to the query. By optimising learnable prompt tokens and actively selecting objects for training, an adapted model can be produced in a matter of minutes. We also explore how objects unrelated to the query should be dealt with when using real-world data for adaptation. In turn, we propose the use of object captions as negative class labels, helping to produce better calibrated confidence scores during adaptation. Extensive experiments on ScanNet++ demonstrate that QueryAdapter significantly enhances object retrieval performance compared to state-of-the-art unsupervised VLM adapters and 3D scene graph methods. Furthermore, the approach exhibits robust generalization to abstract affordance queries and other datasets, such as Ego4D.

QueryAdapter: Rapid Adaptation of Vision-Language Models in Response to Natural Language Queries

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理