Textual Inversion for Efficient Adaptation of Open-Vocabulary Object Detectors Without Forgetting

📄 arXiv: 2508.05323v1 📥 PDF

作者: Frank Ruis, Gertjan Burghouts, Hugo Kuijf

分类: cs.CV

发布日期: 2025-08-07


💡 一句话要点

提出Textual Inversion方法,高效适应开放词汇目标检测器,避免灾难性遗忘。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标检测 Textual Inversion 视觉语言模型 少样本学习 灾难性遗忘

📋 核心要点

  1. 现有VLM微调方法在提升特定目标检测性能的同时,会损失原始的自然语言查询和零样本能力,导致灾难性遗忘。
  2. 借鉴Textual Inversion在文本到图像生成中的成功经验,提出一种基于TI的开放词汇目标检测方法,扩展VLM词汇。
  3. 该方法仅需少量样本即可准确检测新对象,且与原始VLM权重兼容,保留了原始模型的性能和零样本能力。

📝 摘要(中文)

本文提出了一种基于Textual Inversion (TI) 的方法,用于高效地适应开放词汇目标检测器,同时避免灾难性遗忘。大型预训练视觉语言模型 (VLM) 在目标检测基准测试中表现出色,并具有强大的零样本能力,但要在特定目标上获得最佳性能,仍然需要进行微调。虽然初始VLM权重允许进行良好的少样本迁移学习,但这通常会导致原始自然语言查询和零样本能力的丧失。受TI在个性化文本到图像扩散模型中成功的启发,本文为开放词汇目标检测提出了类似的公式。TI允许通过学习新的或改进现有的token来扩展VLM词汇,从而仅从三个示例中准确检测新的或细粒度对象。学习到的token与原始VLM权重完全兼容,同时保持权重冻结,保留了原始模型的基准性能,并利用其现有能力,例如零样本域迁移(例如,在仅对真实照片进行训练后检测对象的草图)。存储和梯度计算仅限于token嵌入维度,与完整模型微调相比,所需的计算量大大减少。通过广泛的定量和定性实验,评估了该方法是否能与遭受遗忘的基线方法相匹配或超越。

🔬 方法详解

问题定义:论文旨在解决开放词汇目标检测中,VLM微调后出现的灾难性遗忘问题。现有微调方法在提升特定任务性能的同时,会显著降低模型原有的零样本泛化能力和对自然语言查询的响应能力。

核心思路:论文的核心思路是借鉴Textual Inversion的思想,通过学习新的token嵌入来扩展VLM的词汇表,而无需修改VLM本身的权重。这样既能提升模型对特定目标的检测能力,又能保留其原有的零样本能力和泛化性能。

技术框架:该方法主要包含以下步骤:1) 初始化VLM模型;2) 为待检测的新类别或细粒度对象创建新的token嵌入;3) 使用少量样本(例如3个)训练这些token嵌入,同时保持VLM的权重冻结;4) 使用训练好的token嵌入进行目标检测。整体框架简单高效,易于实现。

关键创新:该方法最重要的创新在于将Textual Inversion的思想成功应用于开放词汇目标检测领域,解决了传统微调方法带来的灾难性遗忘问题。通过学习新的token嵌入,而非直接修改VLM的权重,实现了在提升特定任务性能的同时,保留模型原有泛化能力的目的。

关键设计:关键设计包括:1) token嵌入的初始化方式;2) 训练token嵌入所使用的损失函数(例如,目标检测常用的损失函数);3) 训练token嵌入的学习率和优化器选择;4) 如何将学习到的token嵌入集成到现有的VLM框架中。具体的参数设置和网络结构细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,该方法在少量样本条件下,能够有效地提升VLM对新类别或细粒度对象的检测性能,同时保持甚至提升了模型原有的零样本能力。与传统的微调方法相比,该方法显著降低了计算成本,并有效避免了灾难性遗忘问题。具体的性能数据和提升幅度需要在论文中查找(未知)。

🎯 应用场景

该研究成果可广泛应用于需要快速适应新类别或细粒度对象的开放词汇目标检测场景,例如智能安防、自动驾驶、医疗影像分析等领域。该方法能够有效提升目标检测系统的灵活性和泛化能力,降低对大量标注数据的依赖,具有重要的实际应用价值和广阔的发展前景。

📄 摘要(原文)

Recent progress in large pre-trained vision language models (VLMs) has reached state-of-the-art performance on several object detection benchmarks and boasts strong zero-shot capabilities, but for optimal performance on specific targets some form of finetuning is still necessary. While the initial VLM weights allow for great few-shot transfer learning, this usually involves the loss of the original natural language querying and zero-shot capabilities. Inspired by the success of Textual Inversion (TI) in personalizing text-to-image diffusion models, we propose a similar formulation for open-vocabulary object detection. TI allows extending the VLM vocabulary by learning new or improving existing tokens to accurately detect novel or fine-grained objects from as little as three examples. The learned tokens are completely compatible with the original VLM weights while keeping them frozen, retaining the original model's benchmark performance, and leveraging its existing capabilities such as zero-shot domain transfer (e.g., detecting a sketch of an object after training only on real photos). The storage and gradient calculations are limited to the token embedding dimension, requiring significantly less compute than full-model fine-tuning. We evaluated whether the method matches or outperforms the baseline methods that suffer from forgetting in a wide variety of quantitative and qualitative experiments.