LMM-Det: Make Large Multimodal Models Excel in Object Detection
作者: Jincheng Li, Chunyu Xie, Ji Ao, Dawei Leng, Yuhui Yin
分类: cs.CV
发布日期: 2025-07-24
备注: Accepted at ICCV 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出LMM-Det,利用大型多模态模型实现无需专用检测模块的目标检测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型多模态模型 目标检测 数据分布调整 推理优化 指令学习
📋 核心要点
- 现有方法依赖重型检测器与LMM集成,计算成本高,且未能充分发挥LMM的潜力。
- LMM-Det通过数据分布调整和推理优化,直接利用LMM进行目标检测,无需额外检测模块。
- 实验表明,LMM-Det在目标检测任务上表现出有效性,验证了LMM本身具备检测能力。
📝 摘要(中文)
大型多模态模型(LMMs)因其在多模态理解、推理和上下文学习等方面的卓越能力,在人工智能研究和工业界引起了广泛关注。虽然LMMs在图像描述、视觉问答和视觉定位等任务中表现出良好的结果,但LMMs的目标检测能力与专用检测器相比存在显著差距。为了弥合这一差距,我们摒弃了将重型检测器与LMMs集成的传统方法,提出了LMM-Det,这是一种简单而有效的方法,它利用大型多模态模型进行普通目标检测,而无需依赖专门的检测模块。具体来说,我们对大型多模态模型与目标检测相结合的情况进行了全面的探索性分析,发现召回率与专用检测模型相比显著降低。为了缓解这个问题,我们建议通过引入针对目标检测的数据分布调整和推理优化来提高召回率。我们重新组织了指令对话,以增强大型多模态模型的目标检测能力。我们声称,大型多模态模型具有检测能力,而无需任何额外的检测模块。大量的实验支持了我们的主张,并表明了多功能LMM-Det的有效性。数据集、模型和代码可在https://github.com/360CVGroup/LMM-Det获得。
🔬 方法详解
问题定义:现有目标检测方法通常需要专门设计的检测模块,例如Faster R-CNN、YOLO等,这些模块计算量大,且与大型多模态模型(LMM)的集成较为复杂。LMM本身具备一定的视觉理解能力,但直接应用于目标检测时,召回率较低,无法达到专用检测器的性能水平。因此,如何充分利用LMM的固有能力,实现高效的目标检测,是一个亟待解决的问题。
核心思路:LMM-Det的核心思路是,通过优化数据分布和推理过程,激发LMM本身的目标检测能力,而无需引入额外的检测模块。论文认为,LMM的低召回率并非由于缺乏检测能力,而是由于训练数据和推理方式与目标检测任务不匹配。因此,通过调整数据分布,使LMM更好地学习目标检测的特征,并通过优化推理过程,提高LMM的检测精度和召回率。
技术框架:LMM-Det的整体框架包括两个主要阶段:数据分布调整和推理优化。在数据分布调整阶段,论文重新组织指令对话,以增强LMM对目标检测任务的理解。具体来说,论文设计了特定的prompt,引导LMM学习目标的位置、类别等信息。在推理优化阶段,论文采用特定的策略来提高LMM的检测精度和召回率。例如,可以通过多次推理,并对结果进行融合,来减少漏检和误检。
关键创新:LMM-Det最重要的创新点在于,它证明了大型多模态模型本身具备目标检测能力,而无需依赖专门的检测模块。这与以往的方法形成了鲜明对比,以往的方法通常需要将LMM与重型检测器集成,才能实现目标检测。LMM-Det的创新之处在于,它通过优化数据分布和推理过程,充分挖掘了LMM的潜力,使其能够直接应用于目标检测任务。
关键设计:论文的关键设计包括:1) 特定的prompt设计,用于引导LMM学习目标检测的特征;2) 数据增强策略,用于增加训练数据的多样性;3) 推理优化策略,用于提高LMM的检测精度和召回率。具体的参数设置和网络结构等技术细节在论文中进行了详细描述,例如,prompt的具体形式、数据增强的具体方法、推理优化策略的具体实现等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LMM-Det在多个目标检测数据集上取得了显著的性能提升。与直接使用LMM进行目标检测相比,LMM-Det的召回率得到了显著提高。此外,LMM-Det的性能与一些轻量级的专用检测器相比也具有竞争力,证明了其有效性和实用性。具体的性能数据和对比基线可以在论文中找到。
🎯 应用场景
LMM-Det具有广泛的应用前景,例如智能监控、自动驾驶、机器人导航等。它可以应用于资源受限的场景,例如移动设备或嵌入式系统,因为无需额外的检测模块,可以降低计算成本和功耗。此外,LMM-Det还可以与其他多模态任务相结合,例如视觉问答、图像描述等,从而实现更强大的智能系统。
📄 摘要(原文)
Large multimodal models (LMMs) have garnered wide-spread attention and interest within the artificial intelligence research and industrial communities, owing to their remarkable capability in multimodal understanding, reasoning, and in-context learning, among others. While LMMs have demonstrated promising results in tackling multimodal tasks like image captioning, visual question answering, and visual grounding, the object detection capabilities of LMMs exhibit a significant gap compared to specialist detectors. To bridge the gap, we depart from the conventional methods of integrating heavy detectors with LMMs and propose LMM-Det, a simple yet effective approach that leverages a Large Multimodal Model for vanilla object Detection without relying on specialized detection modules. Specifically, we conduct a comprehensive exploratory analysis when a large multimodal model meets with object detection, revealing that the recall rate degrades significantly compared with specialist detection models. To mitigate this, we propose to increase the recall rate by introducing data distribution adjustment and inference optimization tailored for object detection. We re-organize the instruction conversations to enhance the object detection capabilities of large multimodal models. We claim that a large multimodal model possesses detection capability without any extra detection modules. Extensive experiments support our claim and show the effectiveness of the versatile LMM-Det. The datasets, models, and codes are available at https://github.com/360CVGroup/LMM-Det.