DetPO: In-Context Learning with Multi-Modal LLMs for Few-Shot Object Detection

📄 arXiv: 2603.23455v1 📥 PDF

作者: Gautam Rajendrakumar Gare, Neehar Peri, Matvei Popov, Shruti Jain, John Galeotti, Deva Ramanan

分类: cs.CV

发布日期: 2026-03-24

备注: Project Page: https://ggare-cmu.github.io/DetPO/

🔗 代码/项目: GITHUB


💡 一句话要点

DetPO:利用多模态LLM的上下文学习进行少样本目标检测,提升泛化能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 目标检测 少样本学习 提示优化 黑盒优化 上下文学习

📋 核心要点

  1. 现有MLLM在目标检测中泛化能力不足,难以处理分布外的类别和任务。
  2. 提出DetPO,一种黑盒提示优化方法,通过优化文本提示提升少样本目标检测精度。
  3. 实验表明,DetPO在Roboflow20-VL和LVIS数据集上优于现有黑盒方法,提升高达9.7%。

📝 摘要(中文)

多模态大型语言模型(MLLM)在OdinW-13和RefCOCO等流行的目标检测基准测试中表现出强大的视觉基础能力。然而,最先进的模型仍然难以泛化到预训练中不常见的分布外类别、任务和成像模式。虽然上下文提示是提高各种任务性能的常用策略,但我们发现它通常会产生比仅使用类名提示更低的检测精度。这表明当前的MLLM还不能有效地利用少样本视觉示例和丰富的文本描述进行目标检测。由于前沿MLLM通常只能通过API访问,并且最先进的开源模型在消费级硬件上进行微调的成本过高,因此我们探索了用于少样本目标检测的黑盒提示优化。为此,我们提出了检测提示优化(DetPO),这是一种无梯度测试时优化方法,通过最大化少样本视觉训练示例的检测精度同时校准预测置信度来优化纯文本提示。我们提出的方法在Roboflow20-VL和LVIS上对通用MLLM产生了一致的改进,优于先前的黑盒方法高达9.7%。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在少样本目标检测任务中,对于分布外数据泛化能力不足的问题。现有方法,如直接使用类名或上下文提示,无法有效利用少量视觉样本和文本描述,导致检测精度下降。此外,由于前沿MLLM的API访问限制和开源模型微调的高昂成本,使得直接微调变得不可行。

核心思路:论文的核心思路是采用黑盒提示优化(Prompt Optimization)策略,在不修改模型参数的前提下,通过优化文本提示来提升MLLM的检测性能。DetPO通过在少量视觉训练样本上最大化检测精度,并校准预测置信度,从而找到更有效的提示。

技术框架:DetPO的整体框架包括以下几个关键步骤:1) 初始化文本提示;2) 使用MLLM对少量视觉训练样本进行目标检测,得到检测结果和置信度;3) 计算目标函数,该函数结合了检测精度和置信度校准;4) 使用无梯度优化算法(如差分进化算法)优化文本提示,使其最大化目标函数;5) 使用优化后的提示在测试集上进行目标检测。

关键创新:DetPO的关键创新在于提出了一种无梯度的测试时提示优化方法,可以在不访问模型内部参数的情况下,有效提升MLLM在少样本目标检测任务中的性能。与传统的微调方法相比,DetPO更加轻量级,适用于API访问受限或模型微调成本高昂的场景。

关键设计:DetPO的关键设计包括:1) 目标函数的构建,需要平衡检测精度和置信度校准,以避免过拟合训练集;2) 无梯度优化算法的选择,需要考虑算法的收敛速度和计算复杂度;3) 文本提示的表示方式,需要能够被MLLM有效理解和利用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DetPO在Roboflow20-VL和LVIS数据集上显著优于现有的黑盒提示优化方法,最高提升达到9.7%。这表明DetPO能够更有效地利用少量视觉样本和文本描述,提升MLLM在少样本目标检测任务中的性能。此外,DetPO的无梯度优化特性使其适用于各种MLLM,具有良好的通用性。

🎯 应用场景

DetPO具有广泛的应用前景,例如在自动驾驶、智能安防、医疗影像分析等领域,可以利用少量标注数据快速部署目标检测系统。该方法尤其适用于数据获取成本高昂或类别分布不平衡的场景,能够有效提升模型的泛化能力和鲁棒性,降低对大量标注数据的依赖。

📄 摘要(原文)

Multi-Modal LLMs (MLLMs) demonstrate strong visual grounding capabilities on popular object detection benchmarks like OdinW-13 and RefCOCO. However, state-of-the-art models still struggle to generalize to out-of-distribution classes, tasks and imaging modalities not typically found in their pre-training. While in-context prompting is a common strategy to improve performance across diverse tasks, we find that it often yields lower detection accuracy than prompting with class names alone. This suggests that current MLLMs cannot yet effectively leverage few-shot visual examples and rich textual descriptions for object detection. Since frontier MLLMs are typically only accessible via APIs, and state-of-the-art open-weights models are prohibitively expensive to fine-tune on consumer-grade hardware, we instead explore black-box prompt optimization for few-shot object detection. To this end, we propose Detection Prompt Optimization (DetPO), a gradient-free test-time optimization approach that refines text-only prompts by maximizing detection accuracy on few-shot visual training examples while calibrating prediction confidence. Our proposed approach yields consistent improvements across generalist MLLMs on Roboflow20-VL and LVIS, outperforming prior black-box approaches by up to 9.7%. Our code is available at https://github.com/ggare-cmu/DetPO