MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

📄 arXiv: 2603.28407v1 📥 PDF

作者: Fangda Ye, Yuxin Hu, Pengxiang Zhu, Yibo Li, Ziqi Jin, Yao Xiao, Yibo Wang, Lei Wang, Zhen Zhang, Lu Wang, Yue Deng, Bin Wang, Yifan Zhang, Liangcai Su, Xinyu Wang, He Zhao, Chen Wei, Qiang Ren, Bryan Hooi, An Bo, Shuicheng Yan, Lidong Bing

分类: cs.AI, cs.CL

发布日期: 2026-03-30

备注: GitHub: https://github.com/MiroMindAI/MiroEval


💡 一句话要点

MiroEval:面向多模态深度研究Agent的过程与结果评测基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深度研究Agent 多模态评估 过程评估 基准测试 事实性验证

📋 核心要点

  1. 现有深度研究系统评估主要依赖固定规则评估最终报告,忽略了研究过程,且多模态覆盖有限。
  2. MiroEval构建了一个包含文本和多模态任务的基准,并提出了自适应综合质量、事实性验证和过程评估三个维度的评估方法。
  3. 实验表明,过程质量是结果的可靠预测指标,多模态任务更具挑战,MiroThinker系列表现最佳。

📝 摘要(中文)

深度研究系统取得了显著进展,但评估方法滞后于实际用户需求。现有基准主要使用固定规则评估最终报告,忽略了研究过程。它们在多模态覆盖方面有限,依赖于不反映真实查询复杂性的合成任务,并且无法随着知识的演进而更新。为了解决这些问题,我们推出了MiroEval,一个面向深度研究系统的基准和评估框架。该基准包含100个任务(70个纯文本,30个多模态),均基于真实用户需求,并通过双路径管道构建,支持定期更新,从而实现动态演进。提出的评估套件从三个互补维度评估深度研究系统:使用特定任务规则的自适应综合质量评估、通过主动检索和推理(基于网络资源和多模态附件)的Agent式事实性验证,以及以过程为中心的评估,审核系统在整个调查过程中的搜索、推理和改进方式。对13个系统的评估产生了三个主要发现:三个评估维度捕捉了系统能力的互补方面,每个维度都揭示了不同系统的优势和劣势;过程质量是整体结果的可靠预测指标,同时揭示了输出级别指标无法发现的弱点;多模态任务带来了更大的挑战,大多数系统的性能下降了3到10个点。MiroThinker系列实现了最平衡的性能,其中MiroThinker-H1在两种设置中总体排名最高。人工验证和鲁棒性结果证实了基准和评估框架的可靠性。MiroEval为下一代深度研究Agent提供了一个全面的诊断工具。

🔬 方法详解

问题定义:现有深度研究系统的评估主要集中在最终输出的质量上,缺乏对研究过程的细致评估。现有的基准测试在多模态信息的处理能力、任务的真实性和可更新性方面存在不足,难以全面反映系统的实际能力。这些局限性阻碍了深度研究系统朝着更智能、更可靠的方向发展。

核心思路:MiroEval的核心思路是构建一个更全面、更贴近实际用户需求的评估框架,不仅关注最终的研究报告,还深入评估研究过程中的搜索、推理和综合能力。通过引入多模态任务、动态更新机制和多维度的评估指标,MiroEval旨在更准确地诊断深度研究系统的优势和劣势。

技术框架:MiroEval包含一个基准数据集和一个评估套件。基准数据集包含100个任务,分为文本和多模态两类,均基于真实用户需求构建,并支持定期更新。评估套件包含三个维度:自适应综合质量评估(使用任务特定规则)、Agent式事实性验证(基于网络资源和多模态附件)和过程评估(审核搜索、推理和改进过程)。

关键创新:MiroEval的关键创新在于其对研究过程的评估。通过分析系统在搜索、推理和综合过程中的行为,MiroEval能够发现仅通过输出评估难以发现的弱点。此外,MiroEval还引入了多模态任务和动态更新机制,使其更贴近实际应用场景。

关键设计:MiroEval使用双路径管道构建基准数据集,确保任务的质量和多样性。评估套件中的自适应综合质量评估使用任务特定的规则,以更准确地评估研究报告的质量。Agent式事实性验证通过主动检索和推理来验证研究报告的真实性。过程评估则通过分析系统的日志来评估其搜索、推理和综合能力。具体参数设置和损失函数等细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

对13个系统的评估表明,MiroEval的三个评估维度捕捉了系统能力的互补方面。过程质量是整体结果的可靠预测指标,而多模态任务对大多数系统构成了显著挑战,性能下降3-10个点。MiroThinker系列表现最佳,MiroThinker-H1在两种设置中总体排名最高。人工验证和鲁棒性测试验证了MiroEval的可靠性。

🎯 应用场景

MiroEval可用于评估和诊断各种深度研究Agent,帮助研究人员和开发者了解系统的优势和劣势,并指导系统改进。它还可用于比较不同系统的性能,促进深度研究领域的竞争和创新。此外,MiroEval的动态更新机制使其能够适应不断变化的知识环境,保持评估的有效性。

📄 摘要(原文)

Recent progress in deep research systems has been impressive, but evaluation still lags behind real user needs. Existing benchmarks predominantly assess final reports using fixed rubrics, failing to evaluate the underlying research process. Most also offer limited multimodal coverage, rely on synthetic tasks that do not reflect real-world query complexity, and cannot be refreshed as knowledge evolves. To address these gaps, we introduce MiroEval, a benchmark and evaluation framework for deep research systems. The benchmark comprises 100 tasks (70 text-only, 30 multimodal), all grounded in real user needs and constructed via a dual-path pipeline that supports periodic updates, enabling a live and evolving setting. The proposed evaluation suite assesses deep research systems along three complementary dimensions: adaptive synthesis quality evaluation with task-specific rubrics, agentic factuality verification via active retrieval and reasoning over both web sources and multimodal attachments, and process-centric evaluation audits how the system searches, reasons, and refines throughout its investigation. Evaluation across 13 systems yields three principal findings: the three evaluation dimensions capture complementary aspects of system capability, with each revealing distinct strengths and weaknesses across systems; process quality serves as a reliable predictor of overall outcome while revealing weaknesses invisible to output-level metrics; and multimodal tasks pose substantially greater challenges, with most systems declining by 3 to 10 points. The MiroThinker series achieves the most balanced performance, with MiroThinker-H1 ranking the highest overall in both settings. Human verification and robustness results confirm the reliability of the benchmark and evaluation framework. MiroEval provides a holistic diagnostic tool for the next generation of deep research agents.