MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments
作者: Han Wang, David Wan, Hyunji Lee, Thinh Pham, Mikaela Cankosyan, Weiyuan Chen, Elias Stengel-Eskin, Tu Vu, Mohit Bansal
分类: cs.CL, cs.AI, cs.CV
发布日期: 2026-04-15
备注: First three authors contributed equally. Project Page: https://merrin-benchmark.github.io/
💡 一句话要点
MERRIN:用于评估噪声Web环境中多模态证据检索与推理的基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态检索 证据推理 噪声环境 Web搜索 基准测试
📋 核心要点
- 现有搜索增强型代理在处理多跳、模态异构且信息冲突的真实Web查询时表现不足。
- MERRIN基准旨在评估AI代理在噪声Web环境中检索多模态证据并进行多跳推理的能力。
- 实验表明,现有模型在MERRIN基准上表现不佳,凸显了在噪声环境中进行鲁棒搜索和推理的需求。
📝 摘要(中文)
本文提出了MERRIN(噪声Web环境中多模态证据检索与推理)基准,用于评估搜索增强型代理。MERRIN旨在衡量AI代理在识别相关模态、检索多模态证据以及在噪声Web资源上执行多跳推理的能力。MERRIN与现有工作有三个主要区别:(1) 使用没有明确模态提示的自然语言查询;(2) 纳入了视频和音频等未被充分探索的模态;(3) 需要在Web搜索期间检索复杂、通常嘈杂或冲突的多模态证据。论文评估了由十个模型驱动的各种搜索代理,包括强大的闭源模型(如GPT-5.4-mini、Gemini 3/3.1 Flash/Pro)和开源模型(Qwen3-4B/30B/235B),涵盖三种搜索设置(无搜索、原生搜索和代理搜索)。结果表明MERRIN具有很高的挑战性:所有代理的平均准确率为22.3%,性能最佳的代理仅达到40.1%。研究还发现,虽然像Gemini Deep Research这样更强大的代理实现了更高的性能,但由于过度探索,收益并不显著;它们采取了更多步骤并使用了更多工具,但经常被冲突或部分相关的Web内容分散注意力,导致错误的答案。与人类相比,这些代理消耗了更多资源,但准确率更低,这主要是由于低效的来源选择和过度依赖文本模态。这些发现强调了对能够在噪声Web环境中进行鲁棒搜索和跨多种模态进行推理的搜索代理的需求,这使得MERRIN成为评估此类能力的宝贵测试平台。
🔬 方法详解
问题定义:论文旨在解决现有搜索增强型代理在处理真实Web查询时面临的挑战,这些查询通常是多跳的、模态异构的,并且包含冲突信息。现有方法在处理这些复杂场景时,往往无法有效地识别相关模态、检索多模态证据,并进行准确的多跳推理。现有方法的痛点在于对非文本模态的利用不足,以及在噪声环境中容易受到干扰。
核心思路:论文的核心思路是构建一个更具挑战性的基准测试,即MERRIN,它能够更全面地评估搜索增强型代理在真实Web环境中的表现。通过引入多模态数据(包括视频和音频)、噪声信息和复杂的推理需求,MERRIN能够更好地模拟真实世界的搜索场景,从而推动相关技术的发展。这样设计的目的是为了暴露现有模型的不足,并促进更鲁棒、更智能的搜索代理的开发。
技术框架:MERRIN基准测试包含以下主要组成部分:(1) 自然语言查询,没有明确的模态提示;(2) 多模态证据,包括文本、图像、视频和音频;(3) 噪声Web环境,包含嘈杂或冲突的信息;(4) 评估指标,用于衡量代理在检索相关证据和进行多跳推理方面的准确性。评估流程包括:代理接收查询,执行Web搜索,检索多模态证据,进行推理,并给出答案。然后,将代理的答案与人工标注的答案进行比较,以评估其性能。
关键创新:MERRIN基准测试的关键创新在于其对真实Web环境的模拟程度更高。与现有基准测试相比,MERRIN更加关注多模态信息的处理、噪声环境的影响以及复杂推理的需求。此外,MERRIN还引入了视频和音频等未被充分探索的模态,从而更全面地评估了搜索增强型代理的能力。与现有方法的本质区别在于,MERRIN不仅仅关注文本信息的检索和推理,而是更加强调多模态信息的融合和利用。
关键设计:MERRIN基准测试的关键设计包括:(1) 查询的设计,旨在模拟真实用户的搜索意图,避免提供明确的模态提示;(2) 多模态证据的收集,确保涵盖各种类型的Web资源,并包含一定程度的噪声;(3) 评估指标的选择,旨在全面衡量代理在检索相关证据和进行多跳推理方面的准确性。具体的参数设置和网络结构取决于所评估的搜索代理,但MERRIN提供了一个统一的评估平台,可以对各种不同的代理进行比较。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有模型在MERRIN基准上表现不佳,平均准确率仅为22.3%,最佳模型也仅达到40.1%。即使是像Gemini Deep Research这样更强大的模型,也由于过度探索而导致收益不显著。与人类相比,这些代理消耗了更多资源,但准确率更低,这主要是由于低效的来源选择和过度依赖文本模态。这些结果表明,需要在噪声Web环境中进行鲁棒搜索和跨多种模态进行推理。
🎯 应用场景
MERRIN基准的潜在应用领域包括智能搜索引擎、问答系统、信息抽取和知识图谱构建。通过提高搜索代理在噪声Web环境中进行多模态证据检索和推理的能力,可以改善用户获取信息的效率和准确性。未来,该研究可以促进更智能、更个性化的信息服务的发展,并应用于医疗、金融等领域。
📄 摘要(原文)
Motivated by the underspecified, multi-hop nature of search queries and the multimodal, heterogeneous, and often conflicting nature of real-world web results, we introduce MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments), a human-annotated benchmark for evaluating search-augmented agents. MERRIN measures AI agents' ability to identify relevant modalities, retrieve multimodal evidence, and perform multi-hop reasoning over noisy web sources. It differs from prior work in three important aspects: (1) using natural language queries without explicit modality cues, (2) incorporating underexplored modalities such as video and audio, and (3) requiring the retrieval of complex, often noisy or conflicting multimodal evidence during web search. We evaluate diverse search agents powered by ten models, including strong closed-source models (e.g., GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) and open-weight models (Qwen3-4B/30B/235B), across three search settings (no search, native search, and agentic search). Our results show that MERRIN is highly challenging: the average accuracy across all agents is 22.3%, with the best-performing agent reaching only 40.1%. We further observe that while stronger agents like Gemini Deep Research achieve higher performance, gains are modest due to over-exploration; they take more steps and use more tools, but are often distracted by conflicting or partially relevant web content, leading to incorrect answers. Compared to humans, these agents consume more resources yet achieve lower accuracy, largely due to inefficient source selection and an overreliance on text modalities. These findings highlight the need for search agents capable of robust search and reasoning across diverse modalities in noisy web environments, making MERRIN a valuable testbed for evaluating such capabilities.