AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

📄 arXiv: 2604.18240v1 📥 PDF

作者: Wentao Shi, Yu Wang, Yuyang Zhao, Yuxin Chen, Fuli Feng, Xueyuan Hao, Xi Su, Qi Gu, Hui Su, Xunliang Cai, Xiangnan He

分类: cs.AI

发布日期: 2026-04-20

备注: Accepted to ACL 2026 Findings. 43 pages total, 5 figures

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出AJ-Bench基准,用于评估Agent-as-a-Judge在环境感知评估中的能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agent-as-a-Judge 强化学习 智能体评估 基准测试 环境感知 大型语言模型 行为验证

📋 核心要点

  1. 现有基于规则或LLM的智能体行为验证方法泛化能力有限,难以应对复杂环境。
  2. Agent-as-a-Judge通过主动交互环境和工具获取可验证证据,提升验证的可靠性。
  3. AJ-Bench基准测试表明,Agent-as-a-Judge相较于LLM基线有显著性能提升,但仍存在挑战。

📝 摘要(中文)

随着基于大型语言模型的智能体强化学习训练规模不断扩大,可靠地验证智能体在复杂环境中的行为变得越来越具有挑战性。现有方法依赖于基于规则的验证器或LLM-as-a-Judge模型,但这些方法难以推广到狭窄领域之外。Agent-as-a-Judge通过与环境和工具进行主动交互以获取可验证的证据来解决这一局限性,但其能力仍未得到充分探索。我们引入了一个基准AJ-Bench,以系统地评估Agent-as-a-Judge在三个领域(搜索、数据系统和图形用户界面)中的能力,该基准包含155个任务和516个带注释的轨迹。该基准全面评估了judge agents在信息获取、状态验证和过程验证方面的能力。实验表明,相对于LLM-as-a-Judge基线,性能得到了持续提升,同时也揭示了基于智能体的验证方面存在的重大开放性挑战。我们的数据和代码可在https://aj-bench.github.io/上获取。

🔬 方法详解

问题定义:论文旨在解决现有智能体行为验证方法在复杂环境中泛化能力不足的问题。现有方法,如基于规则的验证器和LLM-as-a-Judge模型,依赖于预定义的规则或有限的知识,难以适应新环境和任务,导致验证结果不准确或不可靠。

核心思路:论文的核心思路是利用Agent-as-a-Judge,即让智能体自身与环境进行交互,主动探索并收集可验证的证据,从而更全面、准确地评估其他智能体的行为。这种方法模拟了人类专家在评估任务时的行为,能够更好地适应复杂和动态的环境。

技术框架:AJ-Bench基准测试包含三个领域:搜索、数据系统和图形用户界面。每个领域包含多个任务,并提供带注释的轨迹作为参考。Judge agent通过与环境交互,执行动作并观察状态变化,然后根据收集到的信息判断其他智能体的行为是否正确。整个流程包括信息获取、状态验证和过程验证三个关键步骤。

关键创新:该论文的关键创新在于提出了Agent-as-a-Judge的概念,并构建了相应的基准测试AJ-Bench。与传统的验证方法相比,Agent-as-a-Judge能够主动获取证据,从而更有效地验证智能体的行为。此外,AJ-Bench涵盖了多个领域,能够更全面地评估Agent-as-a-Judge的能力。

关键设计:AJ-Bench中的任务设计考虑了不同领域的特点,例如,在搜索领域,任务可能涉及查找特定信息或完成特定目标;在数据系统领域,任务可能涉及查询、更新或分析数据;在图形用户界面领域,任务可能涉及操作界面元素或完成特定流程。评估指标包括验证准确率、召回率和F1值等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Agent-as-a-Judge在AJ-Bench基准测试中表现优于LLM-as-a-Judge基线。具体而言,在信息获取、状态验证和过程验证三个方面,Agent-as-a-Judge均取得了显著的性能提升。例如,在某些任务中,Agent-as-a-Judge的验证准确率比LLM-as-a-Judge提高了10%以上。这些结果表明,Agent-as-a-Judge是一种更有效的智能体行为验证方法。

🎯 应用场景

该研究成果可应用于各种需要智能体行为验证的场景,例如自动驾驶、机器人控制、游戏AI等。通过使用Agent-as-a-Judge,可以更可靠地评估智能体的性能和安全性,从而提高系统的整体可靠性和安全性。未来,该方法有望应用于更复杂的环境和任务,并促进智能体技术的进一步发展。

📄 摘要(原文)

As reinforcement learning continues to scale the training of large language model-based agents, reliably verifying agent behaviors in complex environments has become increasingly challenging. Existing approaches rely on rule-based verifiers or LLM-as-a-Judge models, which struggle to generalize beyond narrow domains. Agent-as-a-Judge addresses this limitation by actively interacting with environments and tools to acquire verifiable evidence, yet its capabilities remain underexplored. We introduce a benchmark AJ-Bench to systematically evaluate Agent-as-a-Judge across three domains-search, data systems, and graphical user interfaces-comprising 155 tasks and 516 annotated trajectories. The benchmark comprehensively assesses judge agents' abilities in information acquisition, state verification, and process verification. Experiments demonstrate consistent performance gains over LLM-as-a-Judge baselines, while also revealing substantial open challenges in agent-based verification. Our data and code are available at https://aj-bench.github.io/.