Evaluating the Performance of Open-Vocabulary Object Detection in Low-quality Image
作者: Po-Chih Wu
分类: cs.CV
发布日期: 2025-12-28 (更新: 2026-01-02)
💡 一句话要点
针对低质量图像,评估开放词汇目标检测模型的性能
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇目标检测 低质量图像 图像退化 模型评估 数据集构建
📋 核心要点
- 现有开放词汇目标检测模型在低质量图像上的性能表现未知,缺乏系统性的评估。
- 论文构建了模拟真实世界低质量图像的数据集,用于评估现有模型的鲁棒性。
- 实验表明,现有模型在高层图像退化下性能显著下降,OWLv2表现相对更优。
📝 摘要(中文)
开放词汇目标检测旨在使模型能够定位和识别超出预定义类别集合的对象,并期望达到与人类性能相当的识别能力。本研究旨在评估现有模型在低质量图像条件下开放词汇目标检测任务中的性能。为此,我们引入了一个新的数据集,该数据集模拟了现实世界中的低质量图像。在我们的评估实验中,我们发现,虽然开放词汇目标检测模型在低级图像退化下,mAP分数没有显著下降,但所有模型在高层图像退化下的性能都急剧下降。OWLv2模型在不同类型的退化下始终表现更好,而OWL-ViT、GroundingDINO和Detic则表现出显著的性能下降。我们将发布我们的数据集和代码,以促进未来的研究。
🔬 方法详解
问题定义:论文旨在解决开放词汇目标检测模型在低质量图像上的性能评估问题。现有方法缺乏针对低质量图像的系统性评估,无法了解模型在实际应用场景中的鲁棒性。
核心思路:论文的核心思路是构建一个包含多种低质量图像的数据集,并使用该数据集评估现有开放词汇目标检测模型的性能。通过分析模型在不同类型图像退化下的表现,揭示其在低质量图像上的局限性。
技术框架:论文主要包含两个部分:数据集构建和模型评估。数据集构建部分,作者设计了模拟真实世界低质量图像的生成方法,涵盖低级和高级图像退化。模型评估部分,作者选取了当前流行的开放词汇目标检测模型,并在构建的数据集上进行测试,比较它们在不同退化类型下的mAP指标。
关键创新:论文的关键创新在于构建了一个专门用于评估开放词汇目标检测模型在低质量图像上性能的数据集。该数据集模拟了真实世界中常见的图像退化类型,为评估模型的鲁棒性提供了标准化的平台。
关键设计:数据集的关键设计在于模拟了低级和高级两种类型的图像退化。低级退化包括噪声、模糊等,高级退化包括压缩伪影等。作者可能使用了不同的参数来控制退化的程度,并确保数据集的多样性和真实性。评估指标主要采用mAP,用于衡量模型在目标检测任务中的准确率。
📊 实验亮点
实验结果表明,现有开放词汇目标检测模型在低级图像退化下性能下降不明显,但在高级图像退化下性能急剧下降。OWLv2模型在不同类型的退化下表现相对更好,而OWL-ViT、GroundingDINO和Detic等模型性能下降显著。该研究揭示了现有模型在低质量图像上的局限性,为未来的研究提供了方向。
🎯 应用场景
该研究成果可应用于安防监控、自动驾驶、医学影像等领域,这些领域经常面临低质量图像带来的挑战。通过评估和改进开放词汇目标检测模型在低质量图像上的性能,可以提升这些应用场景下的目标识别准确率和可靠性,具有重要的实际应用价值。
📄 摘要(原文)
Open-vocabulary object detection enables models to localize and recognize objects beyond a predefined set of categories and is expected to achieve recognition capabilities comparable to human performance. In this study, we aim to evaluate the performance of existing models on open-vocabulary object detection tasks under low-quality image conditions. For this purpose, we introduce a new dataset that simulates low-quality images in the real world. In our evaluation experiment, we find that although open-vocabulary object detection models exhibited no significant decrease in mAP scores under low-level image degradation, the performance of all models dropped sharply under high-level image degradation. OWLv2 models consistently performed better across different types of degradation, while OWL-ViT, GroundingDINO, and Detic showed significant performance declines. We will release our dataset and codes to facilitate future studies.