TeD-Loc: Text Distillation for Weakly Supervised Object Localization

📄 arXiv: 2501.12632v1 📥 PDF

作者: Shakeeb Murtaza, Soufiane Belharbi, Marco Pedersoli, Eric Granger

分类: cs.CV, cs.LG

发布日期: 2025-01-22


💡 一句话要点

提出TeD-Loc,通过文本蒸馏实现弱监督目标定位,提升定位精度和效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 弱监督目标定位 文本蒸馏 CLIP 多示例学习 视觉语言模型 图像分类 目标检测

📋 核心要点

  1. 传统WSOL方法依赖分类目标,易忽略目标完整范围,而CLIP类方法依赖外部信息,限制了应用。
  2. TeD-Loc通过文本蒸馏,将CLIP文本嵌入知识融入模型,实现patch级定位,无需额外分类器。
  3. 实验表明,TeD-Loc在定位精度上超越现有方法,并在计算效率上优于复杂模型GenPromp。

📝 摘要(中文)

本文提出了一种用于弱监督目标定位(WSOL)的文本蒸馏方法TeD-Loc。传统的WSOL方法依赖于分类目标,通常只关注最具区分性的目标部分,而忽略了目标的完整空间范围。基于视觉-语言模型(如CLIP)的WSOL方法需要ground truth类别或外部分类器来生成定位图,限制了其在下游任务中的部署。TeD-Loc直接将CLIP文本嵌入的知识提炼到模型骨干网络中,并产生patch级别的定位。通过对这些图像patch进行多示例学习,可以使用一个模型实现精确定位和分类,而无需外部分类器。实验表明,利用文本嵌入和定位线索可以构建一个经济高效的WSOL模型。在CUB和ILSVRC数据集上,TeD-Loc的Top-1定位精度比现有最佳模型提高了约5%,同时显著降低了计算复杂度。

🔬 方法详解

问题定义:弱监督目标定位(WSOL)旨在仅使用图像级别的类别标签来定位图像中的目标。现有方法,如基于类激活图的方法,通常只关注最具区分性的目标部分,无法覆盖目标的完整范围。而基于视觉-语言模型的方法,如CLIP,则需要额外的ground truth类别信息或外部分类器,限制了其应用范围。这些方法的痛点在于无法在不引入额外监督信息或复杂流程的前提下,实现精确的目标定位。

核心思路:TeD-Loc的核心思路是通过文本蒸馏,将CLIP模型中蕴含的关于目标类别的语义信息,迁移到图像分类模型的骨干网络中。具体来说,利用CLIP的文本编码器生成目标类别的文本嵌入,然后将这些文本嵌入作为监督信号,指导图像模型学习patch级别的定位信息。这样,图像模型就可以在没有额外标注的情况下,学习到目标的空间分布。

技术框架:TeD-Loc的整体框架包括以下几个主要步骤:1) 使用CLIP的文本编码器,将目标类别名称编码为文本嵌入。2) 将图像输入到图像分类模型的骨干网络中,提取图像特征。3) 利用文本嵌入作为监督信号,训练图像模型学习patch级别的定位信息。4) 使用多示例学习(MIL)对图像patch进行分类和定位。整个流程无需额外的外部分类器或复杂的prompt学习过程。

关键创新:TeD-Loc的关键创新在于直接将文本嵌入的知识蒸馏到图像模型的骨干网络中,从而实现了端到端的弱监督目标定位。与现有方法相比,TeD-Loc不需要额外的ground truth类别信息或外部分类器,也不需要复杂的prompt学习过程,从而降低了模型的复杂度和计算成本。此外,TeD-Loc通过多示例学习,可以同时实现目标分类和定位,避免了传统WSOL方法中分类和定位性能难以同时提升的问题。

关键设计:TeD-Loc的关键设计包括:1) 使用CLIP的文本编码器生成文本嵌入,作为监督信号。2) 设计了一种patch级别的定位损失函数,用于指导图像模型学习patch级别的定位信息。3) 使用多示例学习(MIL)对图像patch进行分类和定位。具体的损失函数和网络结构细节在论文中进行了详细描述,但摘要中未提供具体参数设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TeD-Loc在CUB和ILSVRC数据集上取得了显著的性能提升。在CUB数据集上,TeD-Loc的Top-1定位精度比现有最佳模型提高了约5%。在ILSVRC数据集上,TeD-Loc也取得了类似的性能提升。此外,与GenPromp相比,TeD-Loc显著降低了计算复杂度,使其更易于部署和应用。

🎯 应用场景

TeD-Loc具有广泛的应用前景,例如在智能监控、自动驾驶、医学图像分析等领域,可以用于在没有精确标注的情况下,自动检测和定位图像中的目标。该方法还可以应用于零样本目标检测,通过利用CLIP的强大泛化能力,实现对未知类别的目标进行定位。此外,TeD-Loc还可以作为一种通用的弱监督学习方法,应用于其他计算机视觉任务。

📄 摘要(原文)

Weakly supervised object localization (WSOL) using classification models trained with only image-class labels remains an important challenge in computer vision. Given their reliance on classification objectives, traditional WSOL methods like class activation mapping focus on the most discriminative object parts, often missing the full spatial extent. In contrast, recent WSOL methods based on vision-language models like CLIP require ground truth classes or external classifiers to produce a localization map, limiting their deployment in downstream tasks. Moreover, methods like GenPromp attempt to address these issues but introduce considerable complexity due to their reliance on conditional denoising processes and intricate prompt learning. This paper introduces Text Distillation for Localization (TeD-Loc), an approach that directly distills knowledge from CLIP text embeddings into the model backbone and produces patch-level localization. Multiple instance learning of these image patches allows for accurate localization and classification using one model without requiring external classifiers. Such integration of textual and visual modalities addresses the longstanding challenge of achieving accurate localization and classification concurrently, as WSOL methods in the literature typically converge at different epochs. Extensive experiments show that leveraging text embeddings and localization cues provides a cost-effective WSOL model. TeD-Loc improves Top-1 LOC accuracy over state-of-the-art models by about 5% on both CUB and ILSVRC datasets, while significantly reducing computational complexity compared to GenPromp.