Detect in Any Scene: An Agentic Framework for Object Detection with Experience-Aware Reasoning

📄 arXiv: 2605.31174v1 📥 PDF

作者: Wenlun Zhang, Jun Yin, Kentaro Yoshioka

分类: cs.CV, cs.LG

发布日期: 2026-05-29


💡 一句话要点

提出DetAS:一个基于Agent的、具有经验感知推理的目标检测框架,提升复杂场景下的检测性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 目标检测 Agentic框架 多模态大语言模型 自适应图像恢复 经验感知推理

📋 核心要点

  1. 现有目标检测方法难以泛化到真实场景,主要原因是图像质量下降和目标分布不均匀,传统方法依赖预定义条件,缺乏对动态环境的适应性。
  2. DetAS框架将目标检测视为动态决策过程,利用MLLM作为agent,自适应地选择图像恢复模块和专业检测器,动态组合检测流程。
  3. DetAS-X通过自进化经验收集机制,从少量标注数据中学习决策经验,实现经验感知推理,在多个benchmark上显著优于现有方法。

📝 摘要(中文)

本文提出了一种名为DetAS的agentic检测框架,将目标检测建模为一个动态决策过程,旨在解决真实场景中因图像退化和异构对象分布导致的检测泛化性问题。DetAS利用多模态大型语言模型(MLLM)作为核心agent,通过选择恢复模块和专业检测器,自适应地组合检测工作流程,而非依赖静态流程。框架包含自适应图像恢复和多专家检测两个关键组件。为了进一步提高细粒度条件下的决策质量,引入了自进化经验收集机制,扩展为DetAS-X,从少量标注数据中积累节点级决策经验,实现经验感知推理。在六个具有挑战性的基准测试中,DetAS-X显著优于现有的基于MLLM的检测器,F1分数平均提升28.36%,在DarkFace上提升高达37.01%。

🔬 方法详解

问题定义:现有目标检测器在真实场景中表现不佳,主要原因是图像质量下降(如光照不足、模糊等)以及目标分布的异构性(不同场景目标大小、遮挡程度不同)。传统方法依赖于针对特定场景的表示学习或端到端pipeline设计,缺乏对动态环境的适应能力,难以泛化到新的、未知的场景中。

核心思路:DetAS的核心思想是将目标检测过程建模为一个动态决策过程,通过一个agent(由MLLM驱动)来根据当前图像的特点,自适应地选择合适的图像恢复模块和专业检测器。这种agentic的方法能够根据经验不断学习和优化决策策略,从而更好地适应各种复杂的场景。

技术框架:DetAS框架主要包含两个关键组件:1) 自适应图像恢复(Self-Adaptive Image Restoration):根据图像质量动态决定是否需要进行图像增强,以及选择哪种增强方法。2) 多专家检测(Multi-Expertise Detection):集成多个领域专业检测器,并利用实例级别的推理来融合它们的预测结果。DetAS-X进一步引入了自进化经验收集机制,通过少量标注数据学习节点级别的决策经验,从而实现经验感知推理。整体流程是,输入图像首先经过自适应图像恢复模块,然后由多专家检测模块进行检测,最后通过经验感知推理对检测结果进行融合和优化。

关键创新:DetAS的关键创新在于将目标检测问题转化为一个agentic决策过程,并利用MLLM作为agent来动态地组合不同的检测模块。与传统的静态pipeline相比,DetAS能够根据图像的特点自适应地调整检测流程,从而更好地适应各种复杂的场景。自进化经验收集机制是另一个重要的创新点,它使得DetAS能够从少量标注数据中学习决策经验,并利用这些经验来指导后续的检测过程。

关键设计:DetAS使用MLLM作为核心agent,负责根据图像的特点选择合适的图像恢复模块和专业检测器。自适应图像恢复模块包含多个图像增强算法,MLLM需要根据图像的质量指标(如清晰度、对比度等)来选择合适的算法。多专家检测模块包含多个领域专业检测器,MLLM需要根据目标的特点(如大小、遮挡程度等)来选择合适的检测器。自进化经验收集机制通过强化学习或模仿学习等方法,从少量标注数据中学习节点级别的决策经验,并利用这些经验来指导MLLM的决策过程。具体的损失函数和网络结构细节在论文中可能有所描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DetAS-X在六个具有挑战性的benchmark上进行了评估,结果表明其显著优于现有的基于MLLM的检测器,F1分数平均提升28.36%,在DarkFace数据集上提升高达37.01%。这些结果表明,agentic检测框架具有巨大的潜力,能够显著提升复杂场景下的目标检测性能。

🎯 应用场景

DetAS框架具有广泛的应用前景,例如在自动驾驶、智能监控、机器人导航等领域,可以提升在复杂光照、恶劣天气等条件下的目标检测性能。该研究为开发更智能、更鲁棒的目标检测系统奠定了基础,有望推动人工智能技术在实际场景中的应用。

📄 摘要(原文)

Object detection in real-world scenarios remains challenging due to diverse image degradations and heterogeneous object distributions, which significantly hinder the generalization of existing detectors. Conventional approaches, including scene-specific representation learning and end-to-end pipeline design, are inherently limited by their reliance on predefined conditions and lack adaptability to dynamic environments. In this paper, we propose DetAS, an agentic detection framework that formulates object detection as a dynamic decision process. Instead of relying on static pipelines, DetAS leverages a Multimodal Large Language Model (MLLM) as a central agent to adaptively compose detection workflows by selecting from a toolbox of restoration modules and specialized detectors. Specifically, DetAS consists of two key components: Self-Adaptive Image Restoration, which dynamically determines whether and how to enhance images for downstream detection, and Multi-Expertise Detection, which integrates multiple domain-specialized detectors and resolves their predictions through instance-level reasoning. To further improve decision quality under fine-grained conditions, we introduce Self-Evolving Experience Harvesting and extend the framework to DetAS-X, which accumulates node-level decision experience from a small set of annotated data and enables experience-aware reasoning during inference. This mechanism allows the system to progressively refine its decision policy and adapt to diverse real-world scenarios. Extensive experiments on six challenging benchmarks demonstrate that DetAS-X significantly outperforms existing MLLM-based detectors, achieving an average improvement of 28.36% in F1 score, with up to 37.01% gain on DarkFace. These results demonstrate the promise of agentic detection and establish a solid foundation for its application in complex and dynamic environments.