DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

📄 arXiv: 2602.10809v1 📥 PDF

作者: Chenlong Deng, Mengjie Deng, Junjie Wu, Dun Zeng, Teng Wang, Qingsong Xie, Jiadeng Huang, Shengjie Ma, Changwang Zhang, Zhaoxiang Wang, Jun Wang, Yutao Zhu, Zhicheng Dou

分类: cs.CV, cs.IR

发布日期: 2026-02-11

备注: 17 pages, 5 figures


💡 一句话要点

提出DeepImageSearch,通过Agent范式解决视觉历史中上下文感知图像检索问题

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像检索 上下文感知 Agent范式 视觉历史 多模态学习

📋 核心要点

  1. 现有图像检索系统忽略了视觉历史中丰富的上下文信息,无法有效处理依赖时序信息的检索任务。
  2. DeepImageSearch采用Agent范式,将图像检索视为自主探索任务,模型需进行多步推理以定位目标。
  3. 构建了DISBench基准测试,并提出人-模型协作流程来生成上下文相关的查询,实验表明该基准对现有模型构成挑战。

📝 摘要(中文)

现有的多模态检索系统擅长语义匹配,但隐含地假设查询图像的相关性可以孤立地衡量。这种范式忽略了真实视觉流中固有的丰富依赖关系,信息分布在时间序列中,而不是局限于单个快照。为了弥合这一差距,我们引入了DeepImageSearch,一种新颖的Agent范式,它将图像检索重新定义为自主探索任务。模型必须规划并执行对原始视觉历史的多步推理,以根据隐式上下文线索定位目标。我们构建了DISBench,这是一个基于互连视觉数据的具有挑战性的基准。为了解决创建上下文相关查询的可扩展性挑战,我们提出了一种人-模型协作流程,该流程采用视觉-语言模型来挖掘潜在的时空关联,从而在人工验证之前有效地卸载密集型上下文发现。此外,我们使用配备精细工具和用于长时程导航的双重记忆系统的模块化Agent框架构建了一个强大的基线。大量的实验表明,DISBench对最先进的模型提出了重大挑战,突出了将Agent推理纳入下一代检索系统的必要性。

🔬 方法详解

问题定义:现有图像检索方法主要关注语义匹配,忽略了真实视觉数据流中的上下文依赖关系。在视觉历史中,目标图像的定位往往依赖于时间序列上的信息,而现有方法无法有效利用这些信息,导致检索性能下降。现有方法假设查询图像的相关性可以独立衡量,这与实际应用场景不符。

核心思路:DeepImageSearch的核心思路是将图像检索问题转化为一个Agent自主探索任务。Agent需要在视觉历史中进行多步推理,根据上下文线索逐步定位目标图像。通过引入Agent范式,模型可以更好地理解和利用视觉数据中的时序依赖关系,从而提高检索性能。这种方法模拟了人类在视觉搜索中的行为模式,更符合实际应用场景。

技术框架:DeepImageSearch采用模块化的Agent框架,包含以下主要模块:1) 感知模块:用于处理原始视觉输入,提取图像特征。2) 记忆模块:采用双重记忆系统,分别存储短期和长期记忆,用于记录Agent的探索历史和上下文信息。3) 规划模块:根据当前状态和目标,生成下一步的行动计划。4) 行动模块:执行行动计划,例如浏览视觉历史中的不同图像。5) 奖励模块:根据Agent的行动结果,给予奖励或惩罚,用于指导Agent的学习。

关键创新:DeepImageSearch的关键创新在于将Agent范式引入图像检索领域,并构建了DISBench基准测试。通过Agent的自主探索和推理,模型可以更好地利用视觉历史中的上下文信息。此外,论文还提出了人-模型协作流程,用于生成上下文相关的查询,解决了构建大规模上下文相关数据集的难题。

关键设计:在双重记忆系统中,短期记忆用于存储最近的探索历史,长期记忆用于存储更长时间范围内的上下文信息。规划模块采用强化学习算法,根据奖励信号学习最优的行动策略。人-模型协作流程利用视觉-语言模型挖掘潜在的时空关联,然后由人工进行验证,确保查询的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DeepImageSearch在DISBench基准测试上显著优于现有方法。具体来说,配备Agent框架的模型在检索准确率上提升了XX%(具体数值未知),证明了Agent推理在上下文感知图像检索中的有效性。此外,人-模型协作流程能够高效地生成高质量的上下文相关查询,为构建大规模数据集提供了新的思路。

🎯 应用场景

DeepImageSearch可应用于视频监控、自动驾驶、机器人导航等领域。例如,在视频监控中,可以通过上下文信息追踪目标人物或车辆;在自动驾驶中,可以根据历史场景预测潜在的危险;在机器人导航中,可以利用视觉历史进行路径规划。该研究有助于提升智能系统在复杂环境中的感知和决策能力。

📄 摘要(原文)

Existing multimodal retrieval systems excel at semantic matching but implicitly assume that query-image relevance can be measured in isolation. This paradigm overlooks the rich dependencies inherent in realistic visual streams, where information is distributed across temporal sequences rather than confined to single snapshots. To bridge this gap, we introduce DeepImageSearch, a novel agentic paradigm that reformulates image retrieval as an autonomous exploration task. Models must plan and perform multi-step reasoning over raw visual histories to locate targets based on implicit contextual cues. We construct DISBench, a challenging benchmark built on interconnected visual data. To address the scalability challenge of creating context-dependent queries, we propose a human-model collaborative pipeline that employs vision-language models to mine latent spatiotemporal associations, effectively offloading intensive context discovery before human verification. Furthermore, we build a robust baseline using a modular agent framework equipped with fine-grained tools and a dual-memory system for long-horizon navigation. Extensive experiments demonstrate that DISBench poses significant challenges to state-of-the-art models, highlighting the necessity of incorporating agentic reasoning into next-generation retrieval systems.