Recover and Match: Open-Vocabulary Multi-Label Recognition through Knowledge-Constrained Optimal Transport
作者: Hao Tan, Zichang Tan, Jun Li, Ajian Liu, Jun Wan, Zhen Lei
分类: cs.CV
发布日期: 2025-03-19
备注: CVPR 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出RAM框架,通过知识约束最优传输实现开放词汇多标签识别
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇识别 多标签识别 视觉-语言模型 最优传输 局部语义恢复 知识约束 CLIP 图像理解
📋 核心要点
- 现有开放词汇多标签识别方法依赖CLIP等模型,但其全局预训练破坏了局部语义,导致区域预测不准确。
- RAM框架通过Ladder Local Adapter (LLA)恢复局部语义,并利用知识约束最优传输(KCOT)优化区域与标签的匹配。
- RAM在多个数据集上取得了SOTA性能,证明了其在开放词汇多标签识别任务上的有效性和潜力。
📝 摘要(中文)
开放词汇多标签识别是一项具有挑战性的计算机视觉任务,旨在识别图像中的多个新类别。现有研究探索了CLIP等视觉-语言模型的迁移能力,但面临两个关键挑战:(1) CLIP的全局预训练目标破坏了局部语义,导致区域预测不可靠;(2) 忽略了图像区域和候选标签之间的匹配关系,依赖平均池化等简单特征聚合,导致来自无关区域的虚假预测。本文提出了RAM(Recover And Match)框架,有效解决了上述问题。我们提出了Ladder Local Adapter (LLA)来加强对局部区域的关注,以内存友好的方式恢复局部语义。针对匹配问题,我们提出了知识约束最优传输(KCOT),通过将任务建模为最优传输问题来抑制与非GT标签的无意义匹配。RAM在来自三个不同领域的各种数据集上实现了最先进的性能,并显示出提升现有方法的巨大潜力。
🔬 方法详解
问题定义:开放词汇多标签识别旨在识别图像中出现的多个类别,这些类别在训练集中未曾出现过。现有方法,特别是基于CLIP的方法,存在两个主要痛点:一是CLIP的全局预训练导致局部语义信息丢失,使得区域特征不够可靠;二是简单地聚合区域特征(如平均池化)忽略了图像区域与标签之间的匹配关系,导致错误预测。
核心思路:RAM框架的核心思路是首先恢复图像的局部语义信息,然后通过知识约束的最优传输来建立图像区域和候选标签之间的准确匹配关系。通过恢复局部语义,可以获得更可靠的区域特征。通过最优传输,可以显式地建模区域和标签之间的匹配关系,避免无关区域的干扰。
技术框架:RAM框架主要包含两个模块:Ladder Local Adapter (LLA) 和 Knowledge-Constrained Optimal Transport (KCOT)。首先,LLA模块用于恢复CLIP模型中的局部语义信息。然后,KCOT模块将多标签识别任务建模为一个最优传输问题,旨在找到图像区域和候选标签之间的最佳匹配方案。整个框架通过联合优化LLA和KCOT,实现更准确的开放词汇多标签识别。
关键创新:RAM框架的关键创新在于:(1) 提出了Ladder Local Adapter (LLA),以内存友好的方式恢复CLIP模型中的局部语义信息,解决了CLIP全局预训练带来的局部语义丢失问题。(2) 提出了Knowledge-Constrained Optimal Transport (KCOT),将多标签识别任务建模为最优传输问题,并引入知识约束,抑制与非GT标签的无意义匹配,从而提高了匹配的准确性。
关键设计:LLA模块采用了一种多层级的适配器结构,逐步恢复局部语义信息。KCOT模块的关键在于定义了传输代价矩阵,该矩阵基于图像区域特征和标签嵌入之间的相似度计算。此外,KCOT还引入了知识约束,即限制每个图像区域只能匹配到与其语义相关的标签,从而避免了与非GT标签的错误匹配。损失函数包括最优传输损失和分类损失,用于联合优化LLA和KCOT。
🖼️ 关键图片
📊 实验亮点
RAM框架在多个开放词汇多标签识别数据集上取得了显著的性能提升。例如,在Visual Genome数据集上,RAM的mAP指标超过了现有SOTA方法,取得了明显的进步。实验结果表明,LLA模块和KCOT模块均对性能提升有贡献,验证了该框架的有效性。
🎯 应用场景
该研究成果可应用于智能图像搜索、图像内容理解、自动标注等领域。例如,在电商平台上,可以利用该技术自动识别商品图像中的多个物品类别,提高搜索效率和用户体验。此外,该技术还可以应用于医学图像分析、遥感图像解译等领域,具有广泛的应用前景。
📄 摘要(原文)
Identifying multiple novel classes in an image, known as open-vocabulary multi-label recognition, is a challenging task in computer vision. Recent studies explore the transfer of powerful vision-language models such as CLIP. However, these approaches face two critical challenges: (1) The local semantics of CLIP are disrupted due to its global pre-training objectives, resulting in unreliable regional predictions. (2) The matching property between image regions and candidate labels has been neglected, relying instead on naive feature aggregation such as average pooling, which leads to spurious predictions from irrelevant regions. In this paper, we present RAM (Recover And Match), a novel framework that effectively addresses the above issues. To tackle the first problem, we propose Ladder Local Adapter (LLA) to enforce refocusing on local regions, recovering local semantics in a memory-friendly way. For the second issue, we propose Knowledge-Constrained Optimal Transport (KCOT) to suppress meaningless matching to non-GT labels by formulating the task as an optimal transport problem. As a result, RAM achieves state-of-the-art performance on various datasets from three distinct domains, and shows great potential to boost the existing methods. Code: https://github.com/EricTan7/RAM.