FOR: Finetuning for Object Level Open Vocabulary Image Retrieval
作者: Hila Levi, Guy Heller, Dan Levi
分类: cs.CV, cs.IR, cs.LG
发布日期: 2024-12-25
备注: WACV 2025
💡 一句话要点
提出FOR:微调CLIP模型用于物体级别开放词汇图像检索
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇图像检索 CLIP模型 微调 多目标学习 物体级别检索
📋 核心要点
- 现有开放词汇图像检索方法依赖预训练CLIP模型,缺乏针对特定数据集的适配,限制了检索精度。
- FOR方法通过微调CLIP模型,利用闭集标签进行训练,同时保留视觉-语言关联,提升开放词汇检索能力。
- 实验表明,FOR在多个数据集上显著优于现有方法,mAP@50指标提升高达8个百分点,且在半监督场景下表现出色。
📝 摘要(中文)
随着大型数据集的普及,通过开放集文本查询准确检索包含感兴趣物体的图像变得越来越重要。目前的主流方法是直接使用预训练的CLIP模型,不进行任何目标领域的适配,并通过额外的后处理来平衡准确性和效率。本文提出了FOR:面向物体中心开放词汇图像检索的微调方法,允许在目标数据集上使用闭集标签进行微调,同时保持对开放词汇检索至关重要的视觉-语言关联。FOR基于两个设计要素:一个为目标任务定制的CLIP head的专用解码器变体,以及它在多目标训练框架中的耦合。这些设计选择共同显著提高了准确性,在三个数据集上展示了高达8 mAP@50的SoTA改进。此外,我们证明了FOR在半监督设置中也有效,即使只有一小部分数据集被标记,也能取得令人印象深刻的结果。
🔬 方法详解
问题定义:论文旨在解决开放词汇图像检索中,现有方法无法有效利用目标数据集信息进行优化的问题。现有方法主要依赖预训练的CLIP模型,缺乏针对特定数据集的微调,导致检索精度受限,尤其是在物体级别的检索任务中表现不佳。
核心思路:论文的核心思路是在预训练的CLIP模型基础上,引入微调机制,利用目标数据集的闭集标签信息来优化模型,同时保持CLIP模型的视觉-语言关联能力。通过这种方式,模型可以更好地理解目标数据集中的物体,从而提高开放词汇检索的准确性。
技术框架:FOR方法的技术框架主要包含以下几个模块:1) 预训练的CLIP模型作为基础;2) 一个专门设计的CLIP head解码器变体,用于适应物体级别的检索任务;3) 一个多目标训练框架,同时优化闭集分类损失和视觉-语言对齐损失。整个流程是,首先使用预训练的CLIP模型提取图像和文本特征,然后通过定制的解码器进行预测,最后通过多目标损失函数进行微调。
关键创新:FOR方法的关键创新在于:1) 提出了一个专门为物体级别检索任务设计的CLIP head解码器变体,能够更好地捕捉物体之间的关系;2) 提出了一个多目标训练框架,能够同时优化闭集分类损失和视觉-语言对齐损失,从而在微调过程中保持CLIP模型的开放词汇检索能力。
关键设计:在解码器设计上,采用了更适合物体级别检索的结构,具体结构未知。在损失函数设计上,采用了多目标损失函数,包括闭集分类损失和视觉-语言对齐损失,具体损失函数的权重设置未知。在训练过程中,使用了特定的优化器和学习率策略,具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FOR方法在三个数据集上均取得了显著的性能提升,mAP@50指标最高提升了8个百分点,超越了现有最佳方法。此外,FOR方法在半监督学习场景下也表现出色,即使只有少量标注数据,也能取得令人满意的检索精度,表明其具有良好的泛化能力。
🎯 应用场景
该研究成果可应用于智能相册管理、电商平台商品检索、安防监控等领域。通过输入自然语言描述,用户可以快速准确地检索到包含特定物体的图像,提升用户体验和工作效率。未来,该技术有望应用于更广泛的视觉搜索和图像理解任务中。
📄 摘要(原文)
As working with large datasets becomes standard, the task of accurately retrieving images containing objects of interest by an open set textual query gains practical importance. The current leading approach utilizes a pre-trained CLIP model without any adaptation to the target domain, balancing accuracy and efficiency through additional post-processing. In this work, we propose FOR: Finetuning for Object-centric Open-vocabulary Image Retrieval, which allows finetuning on a target dataset using closed-set labels while keeping the visual-language association crucial for open vocabulary retrieval. FOR is based on two design elements: a specialized decoder variant of the CLIP head customized for the intended task, and its coupling within a multi-objective training framework. Together, these design choices result in a significant increase in accuracy, showcasing improvements of up to 8 mAP@50 points over SoTA across three datasets. Additionally, we demonstrate that FOR is also effective in a semi-supervised setting, achieving impressive results even when only a small portion of the dataset is labeled.