MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

作者: Shilong Li, Xingyuan Bu, Wenjie Wang, Jiaheng Liu, Jun Dong, Haoyang He, Hao Lu, Haozhe Zhang, Chenchen Jing, Zhen Li, Chuanhao Li, Jiayi Tian, Chenchen Zhang, Tianhao Peng, Yancheng He, Jihao Gu, Yuanxing Zhang, Jian Yang, Ge Zhang, Wenhao Huang, Wangchunshu Zhou, Zhaoxiang Zhang, Ruizhe Ding, Shilei Wen

分类: cs.CL, cs.AI, cs.CV

发布日期: 2025-08-14

备注: The first two authors contribute equally, 26 pages, repo at https://github.com/MMBrowseComp/MM-BrowseComp

💡 一句话要点

提出MM-BrowseComp多模态浏览代理基准，评估模型在复杂网页环境下的多模态推理能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 网页浏览代理 基准测试 视觉推理 信息检索 人工智能 多模态融合

📋 核心要点

现有网页浏览基准主要关注文本信息，忽略了多模态内容的普遍性，无法有效评估代理在复杂网页环境下的能力。
MM-BrowseComp基准通过引入包含图像提示和网页多模态信息的任务，更全面地评估代理的多模态检索和推理能力。
实验结果表明，即使是OpenAI o3等先进模型在MM-BrowseComp上的准确率也较低，揭示了现有模型在多模态推理方面的不足。

📝 摘要（中文）

本文提出了MM-BrowseComp，一个全新的多模态浏览代理基准，包含224个精心设计的问题，旨在评估代理的多模态检索和推理能力。这些问题通常在提示中包含图像，并且搜索和推理过程中遇到的关键信息也可能嵌入在网页上的图像或视频中。因此，仅依赖文本的方法不足以解决此基准。此外，我们为每个问题提供了一个经过验证的检查表，可以对多模态依赖性和推理路径进行细粒度分析。对MM-BrowseComp上最先进模型的全面评估表明，即使是像OpenAI o3这样具有工具的顶级模型也仅达到29.02％的准确率，突出了当前模型中次优的多模态能力和缺乏原生多模态推理。

🔬 方法详解

问题定义：现有网页浏览基准（如BrowseComp）主要侧重于文本信息，忽略了网页中普遍存在的多模态内容（图像、视频等）。这导致现有基准无法充分评估AI代理在真实网页浏览场景下的能力，尤其是在需要结合视觉信息进行推理和决策的任务中。现有方法难以有效处理网页中的多模态信息，导致性能瓶颈。

核心思路：MM-BrowseComp的核心思路是构建一个更贴近真实网页浏览场景的多模态基准，通过精心设计的问题，迫使AI代理必须具备强大的多模态检索、理解和推理能力。该基准强调了图像在提示和网页内容中的重要性，要求模型能够有效地提取和利用这些视觉信息。

技术框架：MM-BrowseComp基准包含224个手工制作的问题，每个问题都设计成需要多模态信息才能解决。每个问题都包含一个图像提示，并且在搜索和推理过程中，关键信息可能嵌入在网页上的图像或视频中。此外，每个问题都配有一个经过验证的检查表，用于细粒度地分析多模态依赖性和推理路径。整体流程是：给定一个包含图像的提示，AI代理需要通过网页浏览找到答案，答案可能需要结合网页中的文本、图像和视频信息进行推理。

关键创新：MM-BrowseComp的关键创新在于其对多模态网页浏览场景的模拟，以及对多模态推理能力的强调。与现有基准相比，MM-BrowseComp更真实地反映了实际网页浏览的复杂性，并对AI代理提出了更高的要求。另一个创新点是为每个问题提供验证的检查表，方便对模型的推理过程进行分析。

关键设计：MM-BrowseComp的问题设计侧重于考察模型对网页中图像和视频信息的理解和利用能力。问题的类型包括但不限于：图像识别、目标检测、视觉推理、多模态信息融合等。检查表的设计则关注模型在解决问题过程中所依赖的多模态信息和推理步骤，例如，模型是否正确识别了图像中的关键对象，是否能够将图像信息与文本信息进行有效融合等。具体参数设置和网络结构取决于被评估的AI代理模型。

🖼️ 关键图片

📊 实验亮点

在MM-BrowseComp基准上，即使是像OpenAI o3这样具有工具的先进模型，也仅取得了29.02%的准确率。这一结果表明，现有模型在多模态网页浏览和推理方面仍存在显著不足，亟需进一步的研究和改进。该基准的提出，为未来的研究提供了一个重要的评估平台。

🎯 应用场景

MM-BrowseComp基准的提出，将推动多模态网页浏览代理的研究和发展。该基准可用于评估和比较不同AI模型在复杂网页环境下的多模态推理能力，促进相关算法的改进和优化。未来，该技术可应用于智能助手、信息检索、电商导购等领域，提升用户体验和效率。

📄 摘要（原文）

AI agents with advanced reasoning and tool use capabilities have demonstrated impressive performance in web browsing for deep search. While existing benchmarks such as BrowseComp evaluate these browsing abilities, they primarily focus on textual information, overlooking the prevalence of multimodal content. To bridge this gap, we introduce MM-BrowseComp, a novel benchmark comprising 224 challenging, hand-crafted questions specifically designed to assess agents' multimodal retrieval and reasoning capabilities. These questions often incorporate images in prompts, and crucial information encountered during the search and reasoning process may also be embedded within images or videos on webpages. Consequently, methods relying solely on text prove insufficient for our benchmark. Additionally, we provide a verified checklist for each question, enabling fine-grained analysis of multimodal dependencies and reasoning paths. Our comprehensive evaluation of state-of-the-art models on MM-BrowseComp reveals that even top models like OpenAI o3 with tools achieve only 29.02\% accuracy, highlighting the suboptimal multimodal capabilities and lack of native multimodal reasoning in current models.

MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理