VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents
作者: Zhengbo Zhang, Jinbo Su, Zhaowen Zhou, Changtao Miao, Yuhan Hong, Qimeng Wu, Yumeng Liu, Feier Wu, Yihe Tian, Yuhao Liang, Zitong Shan, Wanke Xia, Yi-Fan Zhang, Bo Zhang, Zhe Li, Shiming Xiang, Ying Yan
分类: cs.CV, cs.AI
发布日期: 2026-03-17
🔗 代码/项目: GITHUB
💡 一句话要点
VisBrowse-Bench:用于多模态浏览代理的视觉原生搜索基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态浏览代理 视觉原生搜索 基准测试 视觉推理 文本-图像检索 多模态大型语言模型 VQA 网页理解
📋 核心要点
- 现有浏览代理基准测试在视觉推理能力评估和网页原生视觉信息利用方面存在不足。
- VisBrowse-Bench通过构建包含多领域VQA实例的基准,并结合文本-图像检索和联合推理,提升视觉推理评估。
- 实验表明,即使是先进的MLLM模型在VisBrowse-Bench上也表现出显著的性能差距,突显了该基准的挑战性。
📝 摘要(中文)
多模态大型语言模型(MLLM)的快速发展使得浏览代理能够获取和推理现实世界中的多模态信息。然而,现有的基准测试存在两个局限性:对视觉推理能力的评估不足,以及在推理链中忽略了网页的原始视觉信息。为了解决这些挑战,我们引入了一个新的视觉原生搜索基准,VisBrowse-Bench。它包含169个VQA实例,涵盖多个领域,并通过文本-图像检索和联合推理进行多模态证据交叉验证,从而评估模型在搜索过程中的视觉推理能力。这些数据由人类专家使用多阶段流程构建,并经过严格的人工验证。此外,我们还提出了一种代理工作流程,可以有效地驱动浏览代理主动收集和推理搜索过程中的视觉信息。我们在此工作流程中全面评估了开源和闭源模型。实验结果表明,即使是性能最佳的模型Claude-4.6-Opus也仅达到47.6%的准确率,而专有的Deep Research模型o3-deep-research仅达到41.1%的准确率。代码和数据可在https://github.com/ZhengboZhang/VisBrowse-Bench访问。
🔬 方法详解
问题定义:现有浏览代理基准测试未能充分评估模型在网页浏览过程中的视觉推理能力,并且忽略了网页本身包含的丰富视觉信息。这导致模型在处理真实世界的多模态搜索任务时表现不佳。现有的基准测试更侧重于文本信息,而忽略了视觉信息在网页理解和推理中的重要作用。
核心思路:VisBrowse-Bench的核心思路是构建一个更贴近真实网页浏览场景的基准测试,强调视觉信息的利用和推理。通过引入包含图像信息的VQA实例,并设计多模态证据交叉验证机制,来全面评估模型在搜索过程中的视觉推理能力。同时,论文还提出了一种代理工作流程,引导模型主动收集和推理视觉信息。
技术框架:VisBrowse-Bench的整体框架包括数据构建和代理工作流程两部分。数据构建采用多阶段流程,由人类专家构建包含图像信息的VQA实例,并进行严格的人工验证。代理工作流程则驱动浏览代理主动收集和推理视觉信息,包括文本-图像检索和联合推理等步骤。该流程旨在模拟人类在浏览网页时主动探索和理解视觉信息的过程。
关键创新:VisBrowse-Bench最重要的创新点在于其对视觉原生信息的强调和对视觉推理能力的全面评估。与现有基准测试相比,VisBrowse-Bench更注重网页中图像信息的利用,并设计了多模态证据交叉验证机制,从而更准确地评估模型在真实网页浏览场景下的表现。此外,提出的代理工作流程也为浏览代理的设计提供了新的思路。
关键设计:VisBrowse-Bench的关键设计包括:1) 多阶段数据构建流程,确保数据的质量和多样性;2) 多模态证据交叉验证机制,通过文本-图像检索和联合推理来评估模型的视觉推理能力;3) 代理工作流程,引导模型主动收集和推理视觉信息。具体参数设置和网络结构取决于所评估的MLLM模型,论文主要关注基准测试的设计和评估流程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是目前最先进的MLLM模型,如Claude-4.6-Opus和o3-deep-research,在VisBrowse-Bench上的准确率也分别只有47.6%和41.1%。这表明现有模型在视觉原生搜索方面仍有很大的提升空间,VisBrowse-Bench能够有效区分不同模型的性能差异,并为未来的研究提供有价值的参考。
🎯 应用场景
VisBrowse-Bench可应用于提升多模态浏览代理的性能,使其更好地理解和利用网页中的视觉信息。这对于智能客服、信息检索、辅助阅读等领域具有重要价值。未来,该基准可以促进更强大的视觉-语言模型的开发,从而实现更智能、更高效的网页浏览体验。
📄 摘要(原文)
The rapid advancement of Multimodal Large Language Models (MLLMs) has enabled browsing agents to acquire and reason over multimodal information in the real world. But existing benchmarks suffer from two limitations: insufficient evaluation of visual reasoning ability and the neglect of native visual information of web pages in the reasoning chains. To address these challenges, we introduce a new benchmark for visual-native search, VisBrowse-Bench. It contains 169 VQA instances covering multiple domains and evaluates the models' visual reasoning capabilities during the search process through multimodal evidence cross-validation via text-image retrieval and joint reasoning. These data were constructed by human experts using a multi-stage pipeline and underwent rigorous manual verification. We additionally propose an agent workflow that can effectively drive the browsing agent to actively collect and reason over visual information during the search process. We comprehensively evaluated both open-source and closed-source models in this workflow. Experimental results show that even the best-performing model, Claude-4.6-Opus only achieves an accuracy of 47.6%, while the proprietary Deep Research model, o3-deep-research only achieves an accuracy of 41.1%. The code and data can be accessed at: https://github.com/ZhengboZhang/VisBrowse-Bench