Open-Vocabulary Object Detection via Language Hierarchy

作者: Jiaxing Huang, Jingyi Zhang, Kai Jiang, Shijian Lu

分类: cs.CV, cs.AI, cs.CL

发布日期: 2024-10-27

备注: NeurIPS 2024 Camera Ready

💡 一句话要点

提出语言层级自训练方法，解决弱监督开放词汇目标检测中的标签不匹配问题。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标检测 弱监督学习 语言层级 自训练 标签扩展

📋 核心要点

弱监督目标检测易受图像级标签与目标框不匹配的影响，限制了检测器的泛化能力。
LHST利用语言层级扩展图像级标签，通过协同正则化增强自训练，从而缓解标签不匹配问题。
实验证明，该方法在多个数据集上显著提升了开放词汇目标检测的泛化性能。

📝 摘要（中文）

本文提出了一种语言层级自训练（LHST）方法，用于解决弱监督开放词汇目标检测中存在的图像到框标签不匹配问题。LHST通过引入语言层级来扩展图像级别的标签，并实现扩展标签和自训练之间的协同正则化。具体而言，扩展的标签通过提供更丰富的监督信息和缓解图像到框的标签不匹配来正则化自训练，而自训练则允许根据预测的可靠性来评估和选择扩展的标签。此外，本文还设计了一种语言层级提示生成方法，将语言层级引入到提示生成中，从而有助于弥合训练和测试之间的词汇差距。大量的实验表明，所提出的技术在14个广泛研究的目标检测数据集上始终实现了卓越的泛化性能。

🔬 方法详解

问题定义：论文旨在解决开放词汇目标检测中，利用图像级别弱监督信息训练目标检测器时，由于图像级标签与目标框之间存在不匹配而导致的检测器泛化能力不足的问题。现有的弱监督方法难以准确地将图像级标签对应到具体的物体框，导致训练出的检测器性能受限。

核心思路：论文的核心思路是利用语言层级结构来丰富图像级标签的信息，并将其与自训练方法相结合，从而缓解图像到框的标签不匹配问题。通过引入语言层级，可以为每个图像级标签提供更细粒度的语义信息，从而更准确地指导目标检测器的训练。同时，自训练方法可以利用模型自身的预测结果来进一步提升性能，并筛选出更可靠的扩展标签。

技术框架：LHST方法主要包含两个关键模块：语言层级标签扩展和语言层级提示生成。首先，利用语言层级结构（例如WordNet或知识图谱）扩展图像级标签，生成更丰富的标签集合。然后，使用这些扩展的标签来正则化自训练过程，即利用扩展标签监督模型自身的预测结果。此外，还设计了一种语言层级提示生成方法，用于生成更有效的提示信息，以弥合训练和测试之间的词汇差距。整体流程是先进行标签扩展，然后进行自训练，并在自训练过程中利用扩展标签进行正则化。

关键创新：该论文的关键创新在于将语言层级结构引入到弱监督开放词汇目标检测中，并将其与自训练方法相结合。这种结合方式有效地缓解了图像到框的标签不匹配问题，并提升了检测器的泛化能力。此外，语言层级提示生成方法也是一个重要的创新点，它可以帮助模型更好地理解新的词汇，从而提升开放词汇检测的性能。

关键设计：在语言层级标签扩展方面，具体使用了WordNet等知识库来获取标签的上位词和下位词，从而生成更丰富的标签集合。在自训练方面，使用了标准的自训练流程，即先利用带标签的数据训练一个初始模型，然后利用该模型对无标签数据进行预测，并将预测结果作为伪标签来训练模型。在损失函数方面，使用了交叉熵损失函数来衡量模型预测结果与扩展标签之间的差异。语言层级提示生成方法的具体实现细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LHST方法在14个目标检测数据集上均取得了显著的性能提升，证明了其优越的泛化能力。具体性能数据未知，但强调了在多个数据集上的一致性提升，表明该方法具有较强的鲁棒性和通用性。与现有弱监督目标检测方法相比，LHST能够更有效地利用图像级标签，并缓解标签不匹配问题。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、图像搜索等领域，提升目标检测系统在复杂场景和未知物体上的识别能力。通过利用弱监督信息和语言知识，可以降低对大量标注数据的依赖，加速目标检测技术的落地应用，并为更广泛的视觉理解任务提供支持。

📄 摘要（原文）

Recent studies on generalizable object detection have attracted increasing attention with additional weak supervision from large-scale datasets with image-level labels. However, weakly-supervised detection learning often suffers from image-to-box label mismatch, i.e., image-level labels do not convey precise object information. We design Language Hierarchical Self-training (LHST) that introduces language hierarchy into weakly-supervised detector training for learning more generalizable detectors. LHST expands the image-level labels with language hierarchy and enables co-regularization between the expanded labels and self-training. Specifically, the expanded labels regularize self-training by providing richer supervision and mitigating the image-to-box label mismatch, while self-training allows assessing and selecting the expanded labels according to the predicted reliability. In addition, we design language hierarchical prompt generation that introduces language hierarchy into prompt generation which helps bridge the vocabulary gaps between training and testing. Extensive experiments show that the proposed techniques achieve superior generalization performance consistently across 14 widely studied object detection datasets.

Open-Vocabulary Object Detection via Language Hierarchy

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理