A Hierarchical Semantic Distillation Framework for Open-Vocabulary Object Detection

作者: Shenghao Fu, Junkai Yan, Qize Yang, Xihan Wei, Xiaohua Xie, Wei-Shi Zheng

分类: cs.CV

发布日期: 2025-03-13

备注: Accepted to TMM 2025

💡 一句话要点

提出HD-OVD框架，通过分层语义蒸馏提升开放词汇目标检测性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇目标检测 语义蒸馏 分层学习 视觉-语言模型 CLIP 目标检测 知识迁移

📋 核心要点

现有开放词汇目标检测方法直接对齐特征空间，缺乏对CLIP模型语义知识的有效学习。
HD-OVD框架通过实例、类别和图像三个层级的分层语义蒸馏，全面利用CLIP的泛化能力。
实验表明，HD-OVD在OV-COCO数据集上显著提升了新类别AP，验证了其有效性。

📝 摘要（中文）

本文提出了一种名为HD-OVD的分层语义蒸馏框架，用于开放词汇目标检测(OVD)。OVD旨在检测训练标注之外的物体，通常将检测器与预训练的视觉-语言模型（如CLIP）对齐，以继承其泛化识别能力。然而，先前的工作直接将特征空间与CLIP对齐，未能有效地学习语义知识。HD-OVD通过三个方面构建全面的蒸馏过程，从CLIP模型中提取可泛化的知识。第一层级，检测器通过建模视觉空间中单个物体之间的关系，从CLIP图像编码器学习细粒度的实例级语义。此外，引入文本空间的新类别感知分类，帮助检测器吸收CLIP文本编码器的高度可泛化的类别级语义，代表第二层级。最后，通过图像级对比蒸馏，也蒸馏了包含多物体及其上下文的丰富图像级语义。受益于三重层级中精心设计的语义蒸馏，HD-OVD从CLIP继承了实例、类别和图像级别的可泛化识别能力。在OV-COCO数据集上，使用ResNet50骨干网络，新类别AP提升至46.4%，明显优于其他方法。还进行了广泛的消融研究，以分析每个组件的工作方式。

🔬 方法详解

问题定义：开放词汇目标检测旨在检测训练集中未见过的物体类别。现有方法通常依赖于将检测器与预训练的视觉-语言模型（如CLIP）对齐，以获得泛化能力。然而，这些方法通常直接对齐特征空间，忽略了CLIP模型中蕴含的丰富语义知识，导致学习效果不佳。

核心思路：本文的核心思路是通过分层语义蒸馏，更全面、有效地利用CLIP模型中的知识。具体来说，从实例、类别和图像三个层级进行蒸馏，分别提取细粒度的实例级语义、高度泛化的类别级语义以及包含上下文的图像级语义。通过这种分层的方式，使检测器能够更好地理解和识别新颖物体。

技术框架：HD-OVD框架包含三个主要的蒸馏层级：1) 实例级语义蒸馏：通过建模视觉空间中单个物体之间的关系，从CLIP图像编码器学习细粒度的实例级语义。2) 类别级语义蒸馏：引入文本空间的新类别感知分类，帮助检测器吸收CLIP文本编码器的高度可泛化的类别级语义。3) 图像级语义蒸馏：通过图像级对比蒸馏，提取包含多物体及其上下文的丰富图像级语义。这三个层级相互补充，共同提升检测器的泛化能力。

关键创新：HD-OVD的关键创新在于其分层语义蒸馏策略。与以往直接对齐特征空间的方法不同，HD-OVD从多个层级提取CLIP模型的知识，更全面地利用了CLIP的泛化能力。这种分层的方式使得检测器能够更好地理解物体之间的关系、类别信息以及图像的整体上下文，从而提升了对新颖物体的识别能力。

关键设计：在实例级语义蒸馏中，使用了关系建模模块来捕捉物体之间的关系。在类别级语义蒸馏中，设计了新类别感知分类器，以更好地利用CLIP文本编码器的类别信息。在图像级语义蒸馏中，采用了对比学习损失，鼓励检测器学习图像的整体表示。具体的损失函数和网络结构细节在论文中有详细描述，但摘要中未提供具体参数。

🖼️ 关键图片

📊 实验亮点

HD-OVD在OV-COCO数据集上取得了显著的性能提升。使用ResNet50骨干网络时，新类别AP达到了46.4%，明显优于其他方法。消融实验表明，每个层级的语义蒸馏都对性能提升有贡献，验证了分层语义蒸馏策略的有效性。这些实验结果充分证明了HD-OVD在开放词汇目标检测方面的优越性。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、机器人导航等领域，提升系统对未知物体的识别能力。例如，在自动驾驶中，可以帮助车辆识别未知的交通标志或障碍物，提高行驶安全性。在机器人导航中，可以帮助机器人识别未知的物体，更好地完成任务。该研究对于提升人工智能系统的泛化能力具有重要意义。

📄 摘要（原文）

Open-vocabulary object detection (OVD) aims to detect objects beyond the training annotations, where detectors are usually aligned to a pre-trained vision-language model, eg, CLIP, to inherit its generalizable recognition ability so that detectors can recognize new or novel objects. However, previous works directly align the feature space with CLIP and fail to learn the semantic knowledge effectively. In this work, we propose a hierarchical semantic distillation framework named HD-OVD to construct a comprehensive distillation process, which exploits generalizable knowledge from the CLIP model in three aspects. In the first hierarchy of HD-OVD, the detector learns fine-grained instance-wise semantics from the CLIP image encoder by modeling relations among single objects in the visual space. Besides, we introduce text space novel-class-aware classification to help the detector assimilate the highly generalizable class-wise semantics from the CLIP text encoder, representing the second hierarchy. Lastly, abundant image-wise semantics containing multi-object and their contexts are also distilled by an image-wise contrastive distillation. Benefiting from the elaborated semantic distillation in triple hierarchies, our HD-OVD inherits generalizable recognition ability from CLIP in instance, class, and image levels. Thus, we boost the novel AP on the OV-COCO dataset to 46.4% with a ResNet50 backbone, which outperforms others by a clear margin. We also conduct extensive ablation studies to analyze how each component works.

A Hierarchical Semantic Distillation Framework for Open-Vocabulary Object Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理