SGR-Bench: Benchmarking Search Agents on State-Gated Retrieval

作者: Ningyuan Li, Haiyang Shen, Mugeng Liu, Yudong Han, Zhuofan Shi, Sixiong Xie, Yun Ma

分类: cs.AI

发布日期: 2026-05-21

备注: Work in Progress. 23 pages, 7 figures, preprint

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

提出SGR-Bench，用于评估智能体在状态门控检索任务中的表现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 状态门控检索 智能体 基准测试 大型语言模型 工具使用 网络检索 数据检索

📋 核心要点

现有工具使用智能体在专业数据检索网站上，难以通过配置过滤器等方式建立正确的检索状态。
SGR-Bench基准测试通过模拟真实网站的检索流程，评估智能体在状态门控检索任务中的性能。
实验结果表明，现有智能体在SGR-Bench上表现不佳，主要原因是检索范围漂移和标准不匹配。

📝 摘要（中文）

大型语言模型和工具使用智能体的最新进展扩展了网络任务的基准范围。然而，一类重要的专业检索任务仍未得到充分描述。在许多专业数据检索网站上，只有通过过滤器、视图、层次结构或范围建立正确的特定于站点的检索状态后，才能访问包含答案的证据。我们将这种能力称为状态门控检索（SGR）。我们推出了SGR-Bench，这是一个针对此设置的基准，包含100个专家策划的任务，涵盖六个来源系列和12个公共数据生态系统。每个任务都需要发现适当的网站并配置其特定于站点的检索状态以生成结构化答案。SGR-Bench将约束引导和目标导向的问题公式配对，从而能够对状态门控检索的显式和隐式指导进行受控比较。我们评估了八个基于CLI的智能体LLM系统和三个商业搜索智能体产品。在SGR-Bench上，最强的系统仅达到66.18%的item-level F1，而row-level F1仍然低得多。对156个可分析的失败CLI轨迹的手动审核显示了原因：智能体通常会找到相关的网络来源，但会建立错误的特定于站点的检索状态。检索范围漂移（37.2%）和标准不匹配（27.6%）占主导地位，而最终答案组成仅占10.3%。数据集和单例评估说明可在https://huggingface.co/datasets/PKUAIWeb/SGR-BENCH获得。

🔬 方法详解

问题定义：论文旨在解决现有智能体在专业数据检索网站上进行检索时，无法有效利用网站提供的过滤器、视图等功能，导致无法找到正确答案的问题。现有方法缺乏对网站状态的建模和控制，容易出现检索范围漂移和标准不匹配等问题。

核心思路：论文的核心思路是构建一个专门用于评估智能体在状态门控检索（SGR）任务中表现的基准测试SGR-Bench。通过模拟真实网站的检索流程，SGR-Bench可以更全面地评估智能体的检索能力，并帮助研究人员发现智能体在SGR任务中的不足。

技术框架：SGR-Bench包含100个专家策划的任务，涵盖六个来源系列和12个公共数据生态系统。每个任务都需要智能体发现适当的网站，并配置其特定于站点的检索状态以生成结构化答案。SGR-Bench提供约束引导和目标导向两种问题公式，用于比较显式和隐式指导对SGR的影响。评估过程主要通过CLI接口与网站进行交互，记录智能体的操作轨迹，并分析失败案例。

关键创新：SGR-Bench的关键创新在于其专注于状态门控检索任务，并提供了一个包含多种真实网站检索场景的基准测试。与以往的通用网络任务基准测试相比，SGR-Bench更能够反映智能体在专业数据检索方面的能力。此外，SGR-Bench还提供了详细的失败案例分析，帮助研究人员了解智能体在SGR任务中的常见错误。

关键设计：SGR-Bench的任务设计考虑了不同网站的检索机制，包括过滤器、视图、层次结构和范围等。评估指标主要采用item-level F1和row-level F1，用于衡量智能体检索结果的准确性和完整性。失败案例分析主要关注检索范围漂移、标准不匹配和最终答案组成等问题。

🖼️ 关键图片

📊 实验亮点

在SGR-Bench上，最强的CLI-based智能体系统仅达到66.18%的item-level F1，row-level F1更低。失败案例分析表明，检索范围漂移（37.2%）和标准不匹配（27.6%）是主要问题，而最终答案组成仅占10.3%。这表明现有智能体在状态门控检索任务中仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于开发更智能的搜索助手，帮助用户在专业网站上快速准确地找到所需信息。例如，可以应用于法律、医学、金融等领域的专业知识检索，提高信息获取效率和质量。未来，该研究可以促进智能体在复杂信息环境下的自主学习和决策能力。

📄 摘要（原文）

Recent advances in large language models and tool-using agents have expanded the range of benchmarked web tasks. Yet an important class of specialized retrieval tasks remains undercharacterized. On many specialized data-retrieval websites, answer-bearing evidence becomes accessible only after establishing the correct site-specific retrieval state through filters, views, hierarchies, or scopes. We term this capability state-gated retrieval (SGR). We introduce SGR-Bench, a benchmark for this setting containing 100 expert-curated tasks spanning six source families and 12 public data ecosystems. Each task requires discovering the appropriate website and configuring its site-specific retrieval state to produce a structured answer. SGR-Bench pairs constraint-guided and goal-oriented formulations of the same underlying problems, enabling controlled comparisons between explicit and implicit guidance for state-gated retrieval. We evaluate eight CLI-based agentic LLM systems and three commercial search-agent products. On SGR-Bench, the strongest system reaches only 66.18% item-level F1, while row-level F1 remains much lower. A manual audit of 156 analyzable failed CLI trajectories shows why: agents often reach a relevant web source, but establish the wrong site-specific retrieval state. Retrieval-scope drift (37.2%) and criterion mismatch (27.6%) dominate, whereas final answer composition accounts for only 10.3%. The dataset and single-case evaluation instructions are available at https://huggingface.co/datasets/PKUAIWeb/SGR-BENCH.

SGR-Bench: Benchmarking Search Agents on State-Gated Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理