Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

📄 arXiv: 2603.12180v1 📥 PDF

作者: Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta

分类: cs.CL, cs.AI

发布日期: 2026-03-12


💡 一句话要点

提出MADQA基准测试,评估多模态Agent在文档集合上的策略推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态Agent 文档理解 策略推理 基准测试 信息检索

📋 核心要点

  1. 现有Agent在文档密集型任务中缺乏有效的策略推理,往往依赖于低效的试错搜索。
  2. 论文提出MADQA基准,通过人工设计的问题和异构文档,评估Agent的策略推理能力和效率。
  3. 实验表明,现有Agent虽然在准确率上接近人类,但策略性不足,与理想性能存在显著差距。

📝 摘要(中文)

多模态Agent为自动化复杂的文档密集型工作流程提供了一条有希望的途径。然而,一个关键问题仍然存在:这些Agent是否表现出真正的策略推理,或者仅仅是随机的试错搜索?为了解决这个问题,我们引入了MADQA,这是一个包含2250个人工编写的问题的基准,这些问题基于800个异构PDF文档。在经典测试理论的指导下,我们将其设计为最大限度地提高跨不同Agent能力的区分能力。为了评估Agent行为,我们引入了一种新的评估协议,用于衡量准确性与努力程度之间的权衡。使用这个框架,我们表明,虽然最好的Agent可以在原始准确性上与人类搜索者相匹配,但它们在很大程度上成功地解决了不同的问题,并且依靠蛮力搜索来弥补薄弱的战略规划。它们未能缩小与Oracle性能之间近20%的差距,持续进行无成效的循环。我们发布数据集和评估工具,以帮助促进从蛮力检索到校准、高效推理的转变。

🔬 方法详解

问题定义:现有方法在处理文档集合时,多模态Agent往往缺乏有效的策略推理能力,导致搜索效率低下,无法充分利用文档信息。它们倾向于采用蛮力搜索,而非根据文档内容和问题进行有针对性的推理和导航。这种低效的搜索方式限制了Agent在复杂文档密集型工作流程中的应用。

核心思路:论文的核心思路是通过构建一个高质量的基准测试集MADQA,来评估Agent在文档集合上的策略推理能力。MADQA的设计目标是能够区分不同Agent在策略推理方面的差异,并提供一个标准化的评估框架,用于衡量Agent的准确性和效率之间的权衡。通过分析Agent在MADQA上的表现,可以深入了解其策略推理的优势和不足。

技术框架:MADQA基准测试包含以下几个关键组成部分:1) 包含800个异构PDF文档的文档集合;2) 2250个人工编写的、基于文档集合的问题;3) 一种新的评估协议,用于衡量Agent的准确性和努力程度之间的权衡。评估协议通过分析Agent在搜索过程中的行为,例如访问的文档数量和搜索路径,来评估其策略推理的效率。此外,论文还提供了一个评估工具,方便研究人员使用MADQA来评估自己的Agent。

关键创新:MADQA的关键创新在于其设计理念和评估协议。MADQA的设计目标是最大限度地提高跨不同Agent能力的区分能力,这意味着它能够有效地识别出Agent在策略推理方面的差异。新的评估协议不仅关注Agent的准确性,还关注其效率,即在达到目标准确性所需的努力程度。这种综合评估方式能够更全面地反映Agent的策略推理能力。

关键设计:MADQA中的问题由人工编写,以确保问题的质量和多样性。文档集合包含各种类型的PDF文档,例如研究论文、新闻文章和技术报告,以模拟真实世界中的文档密集型工作流程。评估协议使用准确率-努力程度曲线来衡量Agent的性能,该曲线显示了Agent在不同努力程度下所能达到的准确率。通过比较不同Agent的准确率-努力程度曲线,可以评估它们的策略推理效率。

📊 实验亮点

实验结果表明,虽然现有Agent在MADQA基准测试中可以达到与人类搜索者相似的原始准确率,但它们在很大程度上依赖于蛮力搜索,而非策略推理。Agent在缩小与Oracle性能之间近20%的差距方面表现不佳,表明其策略规划能力仍有待提高。MADQA基准测试能够有效区分不同Agent的策略推理能力,并为未来的研究提供了一个有价值的评估平台。

🎯 应用场景

该研究成果可应用于自动化文档密集型工作流程,例如法律文件审查、医学文献检索、金融报告分析等。通过提升Agent的策略推理能力,可以显著提高信息检索的效率和准确性,降低人工成本,并为决策提供更可靠的依据。未来,该研究可促进更智能、更高效的文档处理系统的发展。

📄 摘要(原文)

Multimodal agents offer a promising path to automating complex document-intensive workflows. Yet, a critical question remains: do these agents demonstrate genuine strategic reasoning, or merely stochastic trial-and-error search? To address this, we introduce MADQA, a benchmark of 2,250 human-authored questions grounded in 800 heterogeneous PDF documents. Guided by Classical Test Theory, we design it to maximize discriminative power across varying levels of agentic abilities. To evaluate agentic behaviour, we introduce a novel evaluation protocol measuring the accuracy-effort trade-off. Using this framework, we show that while the best agents can match human searchers in raw accuracy, they succeed on largely different questions and rely on brute-force search to compensate for weak strategic planning. They fail to close the nearly 20% gap to oracle performance, persisting in unproductive loops. We release the dataset and evaluation harness to help facilitate the transition from brute-force retrieval to calibrated, efficient reasoning.