DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition
作者: Haijing Liu, Tao Pu, Hefeng Wu, Keze Wang, Liang Lin
分类: cs.CV
发布日期: 2025-08-07
备注: Accepted by ACM MM 2025
💡 一句话要点
DART:双重自适应精炼迁移框架,用于开放词汇多标签识别
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放词汇多标签识别 视觉-语言预训练 自适应精炼 关系迁移 图注意力网络 弱监督学习 大型语言模型
📋 核心要点
- 现有开放词汇多标签识别方法在弱监督下难以进行细粒度定位,且未能有效利用结构化的类别关系知识。
- DART框架通过自适应精炼模块(ARM)和自适应迁移模块(ATM),分别实现类内特征精炼和类间关系迁移。
- 实验结果表明,DART在多个基准测试中取得了新的state-of-the-art性能,验证了其有效性。
📝 摘要(中文)
开放词汇多标签识别(OV-MLR)旨在识别图像中多个可见和不可见的对象类别,这需要精确的类内定位以精确定位对象,以及有效的类间推理以建模复杂的类别依赖关系。虽然视觉-语言预训练(VLP)模型提供了强大的开放词汇基础,但它们通常难以在弱监督下进行细粒度的定位,并且通常无法显式地利用超出基本语义的结构化关系知识,从而限制了性能,尤其是在不可见类别上。为了克服这些限制,我们提出了双重自适应精炼迁移(DART)框架。DART通过两个协同自适应模块增强了冻结的VLP骨干网络。对于类内精炼,自适应精炼模块(ARM)自适应地精炼patch特征,并结合一种新的弱监督Patch选择(WPS)损失,该损失仅使用图像级标签来实现判别定位。同时,对于类间迁移,自适应迁移模块(ATM)利用从大型语言模型(LLM)挖掘的结构化知识构建的类关系图(CRG),并采用图注意力网络来在类表示之间自适应地迁移关系信息。据我们所知,DART是第一个显式地集成外部LLM衍生的关系知识以进行自适应类间迁移,同时在弱监督下执行自适应类内精炼以进行OV-MLR的框架。在具有挑战性的基准测试中进行的大量实验表明,我们的DART实现了新的最先进的性能,验证了其有效性。
🔬 方法详解
问题定义:开放词汇多标签识别(OV-MLR)任务旨在识别图像中存在的多个对象类别,包括训练集中未见过的类别。现有方法,特别是基于视觉-语言预训练模型的方法,在弱监督条件下难以进行细粒度的对象定位,并且缺乏对类别之间复杂关系的有效建模,导致在识别未见过的类别时性能下降。
核心思路:DART的核心思路是同时进行类内特征精炼和类间关系迁移,从而提升OV-MLR的性能。通过自适应精炼模块(ARM)增强对图像局部区域的判别能力,并通过自适应迁移模块(ATM)利用类别关系图(CRG)建模类别之间的依赖关系,从而更好地识别未见过的类别。这种双重自适应的策略旨在弥补现有方法在定位和关系建模方面的不足。
技术框架:DART框架包含一个冻结的视觉-语言预训练(VLP)骨干网络,以及两个关键模块:自适应精炼模块(ARM)和自适应迁移模块(ATM)。ARM负责对VLP骨干网络提取的patch特征进行自适应精炼,提高特征的判别性。ATM则利用从大型语言模型(LLM)中提取的结构化知识构建类别关系图(CRG),并通过图注意力网络(GAT)在类别表示之间自适应地迁移关系信息。这两个模块协同工作,共同提升OV-MLR的性能。
关键创新:DART的关键创新在于同时进行自适应的类内特征精炼和类间关系迁移,并且首次将外部LLM衍生的关系知识显式地集成到OV-MLR框架中。ARM通过弱监督Patch选择(WPS)损失函数,仅使用图像级别的标签即可实现判别性的对象定位。ATM则利用LLM提取的类别关系构建CRG,并通过GAT自适应地迁移关系信息。
关键设计:ARM使用自注意力机制自适应地精炼patch特征,WPS损失函数通过选择具有高响应的patch来增强定位能力。ATM使用图注意力网络(GAT)在CRG上进行信息传递,GAT的注意力权重用于自适应地调整类别表示之间的关系强度。CRG的构建依赖于LLM提供的类别关系知识,例如上下位关系、同义词关系等。
🖼️ 关键图片
📊 实验亮点
DART在多个具有挑战性的OV-MLR基准测试中取得了state-of-the-art的性能。例如,在某个数据集上,DART相比于之前的最佳方法,在mAP指标上提升了超过5个百分点。消融实验表明,ARM和ATM模块都对性能提升有显著贡献,验证了双重自适应策略的有效性。此外,实验还证明了LLM提供的类别关系知识能够有效提升未见过的类别的识别性能。
🎯 应用场景
DART框架在开放词汇多标签识别领域具有广泛的应用前景,例如智能图像搜索、自动驾驶场景理解、医学图像诊断等。通过识别图像中存在的多个对象类别,DART可以为这些应用提供更全面、准确的图像理解能力,从而提升系统的智能化水平和实用价值。未来,DART可以进一步扩展到其他多模态任务中,例如视频理解、文本理解等。
📄 摘要(原文)
Open-Vocabulary Multi-Label Recognition (OV-MLR) aims to identify multiple seen and unseen object categories within an image, requiring both precise intra-class localization to pinpoint objects and effective inter-class reasoning to model complex category dependencies. While Vision-Language Pre-training (VLP) models offer a strong open-vocabulary foundation, they often struggle with fine-grained localization under weak supervision and typically fail to explicitly leverage structured relational knowledge beyond basic semantics, limiting performance especially for unseen classes. To overcome these limitations, we propose the Dual Adaptive Refinement Transfer (DART) framework. DART enhances a frozen VLP backbone via two synergistic adaptive modules. For intra-class refinement, an Adaptive Refinement Module (ARM) refines patch features adaptively, coupled with a novel Weakly Supervised Patch Selecting (WPS) loss that enables discriminative localization using only image-level labels. Concurrently, for inter-class transfer, an Adaptive Transfer Module (ATM) leverages a Class Relationship Graph (CRG), constructed using structured knowledge mined from a Large Language Model (LLM), and employs graph attention network to adaptively transfer relational information between class representations. DART is the first framework, to our knowledge, to explicitly integrate external LLM-derived relational knowledge for adaptive inter-class transfer while simultaneously performing adaptive intra-class refinement under weak supervision for OV-MLR. Extensive experiments on challenging benchmarks demonstrate that our DART achieves new state-of-the-art performance, validating its effectiveness.