InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search
作者: Bohan Hou, Jiuning Gu, Jiayan Guo, Ronghao Dang, Sicong Leng, Xin Li, Xuemeng Song, Jianfei Yang
分类: cs.CV, cs.CL, cs.IR
发布日期: 2026-05-08
🔗 代码/项目: GITHUB
💡 一句话要点
提出InterLV-Search基准测试,评估交错式多模态Agent搜索能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态搜索 Agent搜索 交错式搜索 视觉证据 基准测试
📋 核心要点
- 现有基准测试在评估多模态Agent搜索时,未能充分考虑视觉证据在交错搜索过程中的作用。
- InterLV-Search通过构建包含文本和视觉证据的交错搜索轨迹,更真实地模拟了实际搜索场景。
- 实验结果表明,现有模型在InterLV-Search上的表现不佳,突出了视觉证据利用和搜索控制的挑战。
📝 摘要(中文)
本文提出InterLV-Search,一个用于评估交错式语言-视觉Agent搜索的新基准。现有基准主要评估多模态搜索和视觉浏览,但视觉证据要么仅限于输入,要么被视为答案终点,而非交错搜索轨迹的一部分。InterLV-Search包含2061个示例,涵盖三个层次:主动视觉证据寻找、可控离线交错多模态搜索和开放网络交错多模态搜索。与现有基准相比,InterLV-Search还包括多模态多分支样本,涉及证据搜索期间多个实体之间的比较。Level 1和Level 2通过自动化流程构建,Level 3通过机器主导、人工监督的开放网络流程构建。此外,本文还提供了InterLV-Agent,用于标准化工具使用、轨迹日志记录和评估。在专有和开源多模态Agent上的实验表明,当前系统距离解决交错式多模态搜索还很远,最佳模型的总体准确率低于50%,突出了视觉证据寻找、搜索控制和多模态证据集成方面的挑战。基准数据和评估代码已在https://github.com/hbhalpha/InterLV-Search-Bench上发布。
🔬 方法详解
问题定义:现有用于多模态Agent搜索的基准测试,如评估多模态搜索和视觉浏览的基准,通常将视觉证据视为输入限制或最终答案,忽略了视觉证据在整个搜索过程中的交错使用。因此,现有方法无法有效评估Agent在复杂搜索场景中利用视觉信息进行推理和决策的能力。
核心思路:本文的核心思路是构建一个更贴近真实搜索场景的基准测试,其中Agent需要交错地利用文本和视觉信息进行搜索和推理。通过引入交错的语言和视觉证据,可以更全面地评估Agent在复杂搜索任务中的表现。这种设计能够促使Agent更好地理解和利用视觉信息,提升其搜索效率和准确性。
技术框架:InterLV-Search基准包含三个层次:主动视觉证据寻找、可控离线交错多模态搜索和开放网络交错多模态搜索。每个层次都设计了相应的任务和评估指标,以全面评估Agent在不同场景下的表现。此外,还提供了InterLV-Agent,用于标准化工具使用、轨迹日志记录和评估。Level 1和Level 2使用自动化流程构建,而Level 3则采用机器主导、人工监督的开放网络流程。
关键创新:InterLV-Search的关键创新在于引入了交错的语言和视觉证据,使得Agent需要在搜索过程中反复利用文本和视觉信息进行推理和决策。此外,该基准还包括多模态多分支样本,要求Agent在证据搜索期间比较多个实体。这些创新使得InterLV-Search能够更全面地评估Agent在复杂搜索场景中的表现,并促进相关研究的进展。与现有方法相比,InterLV-Search更注重评估Agent在交错式搜索过程中的推理和决策能力,而非仅仅关注最终的搜索结果。
关键设计:InterLV-Search基准测试的三个层次在数据生成方式和任务复杂度上有所不同。Level 1和Level 2使用自动化流程生成,可以保证数据的规模和一致性。Level 3采用机器主导、人工监督的开放网络流程,可以模拟更真实的搜索场景。在评估指标方面,InterLV-Search采用了准确率等常用指标,并针对交错式搜索的特点进行了优化。InterLV-Agent提供了一套标准化的API,方便Agent进行工具使用和轨迹记录。
🖼️ 关键图片
📊 实验亮点
在InterLV-Search基准测试中,现有最佳模型的总体准确率低于50%,表明当前系统在解决交错式多模态搜索方面仍面临巨大挑战。实验结果突出了视觉证据寻找、搜索控制和多模态证据集成方面的困难。InterLV-Search的发布为相关研究提供了一个重要的评估平台,有助于推动多模态Agent搜索技术的发展。
🎯 应用场景
InterLV-Search的研究成果可应用于智能搜索引擎、智能助手、机器人导航等领域。通过提升Agent在复杂搜索场景下的表现,可以提高用户获取信息的效率和准确性,改善用户体验。未来的研究可以进一步探索如何利用InterLV-Search来训练更强大的多模态Agent,并将其应用于更广泛的实际场景。
📄 摘要(原文)
Existing benchmarks for multimodal agentic search evaluate multimodal search and visual browsing, but visual evidence is either confined to the input or treated as an answer endpoint rather than part of an interleaved search trajectory. We introduce \textbf{InterLV-Search}, a benchmark for Interleaved Language-Vision Agentic Search, in which textual and visual evidence is repeatedly used to condition later search. It contains 2,061 examples across three levels: active visual evidence seeking, controlled offline interleaved multimodal search, and open-web interleaved multimodal search. Beyond existing benchmarks, it also includes multimodal multi-branch samples that involve comparison between multiple entities during the evidence search. We construct Level 1 and Level 2 with automated pipelines and Level 3 with a machine-led, human-supervised open-web pipeline. We further provide InterLV-Agent for standardized tool use, trajectory logging, and evaluation. Experiments on proprietary and open-source multimodal agents show that current systems remain far from solving interleaved multimodal search, with the best model below 50% overall accuracy, highlighting challenges in visual evidence seeking, search control, and multimodal evidence integration. We release the benchmark data and evaluation code at https://github.com/hbhalpha/InterLV-Search-Bench