Towards Long-horizon Agentic Multimodal Search

📄 arXiv: 2604.12890v1 📥 PDF

作者: Yifan Du, Zikang Liu, Jinbiao Peng, Jie Wu, Junyi Li, Jinyang Li, Wayne Xin Zhao, Ji-Rong Wen

分类: cs.CV, cs.AI

发布日期: 2026-04-14

🔗 代码/项目: GITHUB


💡 一句话要点

提出LMM-Searcher以解决长时段多模态搜索问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长时段搜索 多模态深度学习 视觉表示 信息检索 跨模态推理 智能代理 数据合成

📋 核心要点

  1. 现有多模态搜索方法在处理长时段信息时,常面临上下文爆炸和重要视觉信号丢失的问题。
  2. 本文提出的LMM-Searcher框架通过文件化视觉表示机制,减轻了上下文开销并保留了多模态信息。
  3. 在四个基准测试中的实验结果显示,该方法在100轮搜索中表现优异,超越了现有开源模型。

📝 摘要(中文)

多模态深度搜索代理在通过迭代收集文本和视觉证据来解决复杂任务方面展现出巨大潜力。然而,管理异构信息和高代币成本在长时段内仍然是一个关键挑战,现有方法常常面临上下文爆炸或重要视觉信号丢失的问题。为此,本文提出了一种新颖的长时段多模态深度搜索框架LMM-Searcher,采用基于文件的视觉表示机制。通过将视觉资产卸载到外部文件系统并映射到轻量级文本标识符(UIDs),该方法减轻了上下文开销,同时保留了未来访问的多模态信息。此外,本文还引入了一种数据合成管道,生成需要复杂跨模态多跳推理的查询。实验结果表明,该方法在多个基准测试中表现优异,能够扩展到100轮搜索,且在MM-BrowseComp和MMSearch-Plus等长时段基准测试中实现了开源模型的最先进性能。

🔬 方法详解

问题定义:本文旨在解决长时段多模态搜索中信息管理和高代币成本的问题。现有方法在处理异构信息时容易导致上下文爆炸或重要视觉信号的丢失。

核心思路:LMM-Searcher通过将视觉资产卸载到外部文件系统,并使用轻量级文本标识符(UIDs)进行映射,来减轻上下文开销,同时保留多模态信息以供未来访问。

技术框架:该框架包括文件化视觉表示机制、定制的图像获取工具和数据合成管道。图像获取工具支持按需加载视觉信息,数据合成管道用于生成复杂的跨模态查询。

关键创新:最重要的创新在于文件化视觉表示机制的引入,这一设计显著降低了上下文开销,并提高了多模态信息的访问效率。

关键设计:在参数设置上,采用了轻量级UIDs以减少存储和计算负担,同时在网络结构中引入了针对多模态信息的特定损失函数,以优化模型的推理能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在四个基准测试中,LMM-Searcher在100轮搜索中实现了最先进的性能,特别是在MM-BrowseComp和MMSearch-Plus等长时段基准测试中,超越了现有的开源模型,展示了显著的性能提升。

🎯 应用场景

该研究的潜在应用领域包括智能搜索引擎、虚拟助手和复杂任务的自动化处理。通过提升多模态信息的管理能力,LMM-Searcher能够在信息检索、用户交互和数据分析等方面提供更高效的解决方案,未来可能对相关行业产生深远影响。

📄 摘要(原文)

Multimodal deep search agents have shown great potential in solving complex tasks by iteratively collecting textual and visual evidence. However, managing the heterogeneous information and high token costs associated with multimodal inputs over long horizons remains a critical challenge, as existing methods often suffer from context explosion or the loss of crucial visual signals. To address this, we propose a novel Long-horizon MultiModal deep search framework, named LMM-Searcher, centered on a file-based visual representation mechanism. By offloading visual assets to an external file system and mapping them to lightweight textual identifiers (UIDs), our approach mitigates context overhead while preserving multimodal information for future access. We equip the agent with a tailored fetch-image tool, enabling a progressive, on-demand visual loading strategy for active perception. Furthermore, we introduce a data synthesis pipeline designed to generate queries requiring complex cross-modal multi-hop reasoning. Using this pipeline, we distill 12K high-quality trajectories to fine-tune Qwen3-VL-Thinking-30A3B into a specialized multimodal deep search agent. Extensive experiments across four benchmarks demonstrate that our method successfully scales to 100-turn search horizons, achieving state-of-the-art performance among open-source models on challenging long-horizon benchmarks like MM-BrowseComp and MMSearch-Plus, while also exhibiting strong generalizability across different base models. Our code will be released in https://github.com/RUCAIBox/LMM-Searcher.