COUNTS: Benchmarking Object Detectors and Multimodal Large Language Models under Distribution Shifts
作者: Jiansheng Li, Xingxuan Zhang, Hao Zou, Yige Guo, Renzhe Xu, Yilong Liu, Chuzhao Zhu, Yue He, Peng Cui
分类: cs.CV, cs.AI
发布日期: 2025-04-14
💡 一句话要点
提出COUNTS数据集与O(OD)2、OODG基准,评估目标检测器和多模态大模型在分布偏移下的泛化能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 分布偏移 目标检测 多模态大语言模型 OOD泛化 视觉定位
📋 核心要点
- 现有目标检测器在遇到分布偏移时性能显著下降,OOD泛化能力亟待提升,但缺乏大规模、细粒度标注的数据集和评估基准。
- 论文构建了大规模OOD数据集COUNTS,并设计了O(OD)2和OODG两个基准,分别评估目标检测器和多模态大模型的OOD泛化能力。
- 实验表明,即使是大型模型在OOD场景下仍存在局限性,在视觉定位任务中,GPT-4o和Gemini 1.5的准确率分别为56.7%和28.0%。
📝 摘要(中文)
本文针对目标检测器在真实场景中因分布偏移导致的性能下降问题,提出了一个大规模、全面的OOD数据集COUNTS,该数据集包含14种自然分布偏移,超过22.2万个样本和119.6万个标注框。基于COUNTS,作者构建了两个新的基准:O(OD)2用于全面评估目标检测器的OOD泛化能力,OODG用于评估多模态大语言模型(MLLMs)的视觉定位能力。实验结果表明,虽然大型模型和大规模预训练数据在同分布(IID)场景下显著提升性能,但在OOD场景下,目标检测器和MLLMs仍然存在显著的局限性和改进空间。在视觉定位任务中,即使是先进的GPT-4o和Gemini 1.5也仅分别达到56.7%和28.0%的准确率。希望COUNTS能够促进鲁棒的目标检测器和MLLMs的开发和评估,使其能够在分布偏移下保持高性能。
🔬 方法详解
问题定义:论文旨在解决目标检测器和多模态大语言模型在真实世界应用中,由于数据分布偏移而导致的性能下降问题。现有方法在OOD场景下的泛化能力不足,缺乏专门的大规模数据集和评估基准来衡量和提升模型的鲁棒性。
核心思路:论文的核心思路是构建一个包含多种自然分布偏移的大规模数据集COUNTS,并基于此数据集设计两个新的评估基准O(OD)2和OODG。通过在这些基准上评估现有模型,可以更全面地了解它们在OOD场景下的性能瓶颈,从而指导模型的设计和训练,提升其鲁棒性。
技术框架:整体框架包括数据集构建和基准测试两部分。数据集构建方面,COUNTS数据集包含14种自然分布偏移,涵盖了图像质量、场景、光照等多个方面。基准测试方面,O(OD)2用于评估目标检测器的OOD泛化能力,OODG用于评估多模态大语言模型的视觉定位能力。评估流程包括在训练集上训练模型,然后在测试集上评估性能。
关键创新:论文的关键创新在于构建了一个大规模、多样化的OOD数据集COUNTS,该数据集包含了多种自然分布偏移,更贴近真实世界的应用场景。此外,论文还设计了两个新的评估基准O(OD)2和OODG,可以更全面地评估目标检测器和多模态大语言模型在OOD场景下的性能。与现有数据集相比,COUNTS规模更大,标注更细粒度,分布偏移类型更丰富。
关键设计:COUNTS数据集的构建过程中,作者精心选择了14种自然分布偏移,并对每个样本进行了精细的标注,包括目标框和类别信息。O(OD)2基准测试中,作者设计了多种不同的训练集和测试集组合,以模拟不同的分布偏移场景。OODG基准测试中,作者设计了多种不同的视觉定位任务,以评估多模态大语言模型的视觉理解能力。具体的参数设置、损失函数和网络结构等细节取决于被评估的模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是大型模型在OOD场景下仍存在显著的性能下降。例如,在视觉定位任务中,GPT-4o和Gemini 1.5在OODG基准上的准确率仅分别为56.7%和28.0%。这些结果突显了现有模型在OOD泛化能力方面的不足,并为未来的研究方向提供了重要的参考。
🎯 应用场景
该研究成果可应用于自动驾驶、智能安防、机器人等领域,提升目标检测和多模态理解系统在复杂环境下的鲁棒性和可靠性。通过COUNTS数据集和O(OD)2、OODG基准,可以促进相关算法的开发和评估,加速人工智能技术在实际场景中的落地应用。
📄 摘要(原文)
Current object detectors often suffer significant perfor-mance degradation in real-world applications when encountering distributional shifts. Consequently, the out-of-distribution (OOD) generalization capability of object detectors has garnered increasing attention from researchers. Despite this growing interest, there remains a lack of a large-scale, comprehensive dataset and evaluation benchmark with fine-grained annotations tailored to assess the OOD generalization on more intricate tasks like object detection and grounding. To address this gap, we introduce COUNTS, a large-scale OOD dataset with object-level annotations. COUNTS encompasses 14 natural distributional shifts, over 222K samples, and more than 1,196K labeled bounding boxes. Leveraging COUNTS, we introduce two novel benchmarks: O(OD)2 and OODG. O(OD)2 is designed to comprehensively evaluate the OOD generalization capabilities of object detectors by utilizing controlled distribution shifts between training and testing data. OODG, on the other hand, aims to assess the OOD generalization of grounding abilities in multimodal large language models (MLLMs). Our findings reveal that, while large models and extensive pre-training data substantially en hance performance in in-distribution (IID) scenarios, significant limitations and opportunities for improvement persist in OOD contexts for both object detectors and MLLMs. In visual grounding tasks, even the advanced GPT-4o and Gemini-1.5 only achieve 56.7% and 28.0% accuracy, respectively. We hope COUNTS facilitates advancements in the development and assessment of robust object detectors and MLLMs capable of maintaining high performance under distributional shifts.