AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

作者: Keyu Li, Junhao Shi, Yang Xiao, Mohan Jiang, Jie Sun, Yunze Wu, Shijie Xia, Xiaojie Cai, Tianze Xu, Weiye Si, Wenjie Li, Dequan Wang, Pengfei Liu

分类: cs.AI

发布日期: 2026-01-16

🔗 代码/项目: GITHUB

💡 一句话要点

AgencyBench：百万Token真实世界上下文中的自主Agent基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自主Agent 基准测试 大型语言模型 真实世界场景 自动化评估

📋 核心要点

现有Agent基准测试侧重于单一能力，缺乏对长时程、真实世界场景的全面评估，限制了对Agent能力的深入理解。
AgencyBench通过模拟真实用户场景，构建包含多种Agent能力、长时程任务的综合性基准测试，并提供自动化的评估方法。
实验结果表明，闭源模型在AgencyBench上表现优于开源模型，并在资源效率、自我纠正等方面存在显著差异。

📝 摘要（中文）

基于大型语言模型（LLM）的自主Agent展现出多方面的能力，有望为经济生产做出重大贡献。然而，现有的基准测试仍然侧重于单一的Agent能力，无法捕捉到长期的真实世界场景。此外，依赖于人工反馈来实现真实任务会产生可扩展性瓶颈，阻碍了自动化的rollout收集和评估。为了弥合这一差距，我们推出了AgencyBench，这是一个源自日常AI使用的综合基准测试，评估了32个真实世界场景中的6个核心Agent能力，包含138个具有特定查询、可交付成果和评价标准的任务。这些场景平均需要90次工具调用、100万个Token和数小时的执行时间才能解决。为了实现自动评估，我们采用用户模拟Agent来提供迭代反馈，并使用Docker沙箱来进行基于视觉和功能性评价标准的评估。实验表明，闭源模型明显优于开源模型（48.4% vs 32.1%）。进一步的分析揭示了模型在资源效率、反馈驱动的自我纠正和特定工具使用偏好方面的显著差异。最后，我们研究了Agent框架的影响，观察到专有模型在其原生生态系统中表现出卓越的性能（例如，通过Claude-Agent-SDK的Claude-4.5-Opus），而开源模型则表现出明显的性能峰值，表明可能针对特定执行框架进行优化。AgencyBench是下一代Agent的关键测试平台，突出了模型架构与Agent框架协同优化的必要性。我们相信这项工作揭示了自主Agent的未来方向，并发布了完整的基准测试和评估工具包。

🔬 方法详解

问题定义：现有自主Agent的评测基准主要集中在单一能力，例如代码生成或文本摘要。缺乏一个能够模拟真实世界复杂场景，并全面评估Agent在长时程任务中表现的基准。此外，依赖人工反馈进行评估的方式成本高昂且难以扩展，阻碍了Agent的快速迭代和优化。

核心思路：AgencyBench的核心思路是构建一个贴近真实用户使用场景的基准测试，包含多个需要Agent协同完成的复杂任务。通过用户模拟Agent提供迭代反馈，并利用Docker沙箱进行自动化评估，从而降低评估成本并提高可扩展性。

技术框架：AgencyBench包含以下主要模块：1) 真实世界场景定义：选取32个源自日常AI使用的真实场景，每个场景包含多个任务，需要Agent执行一系列工具调用才能完成。2) 用户模拟Agent：模拟真实用户，根据Agent的输出提供迭代反馈，引导Agent完成任务。3) Docker沙箱：提供隔离的执行环境，用于执行Agent的工具调用，并进行视觉和功能性评估。4) 自动化评估：基于预定义的评价标准，自动评估Agent的输出质量和完成度。

关键创新：AgencyBench的关键创新在于：1) 提出了一个综合性的Agent基准测试，能够评估Agent在长时程、复杂任务中的表现。2) 引入了用户模拟Agent和Docker沙箱，实现了自动化的评估流程，降低了评估成本并提高了可扩展性。3) 提供了详细的评价标准，能够客观地评估Agent的输出质量和完成度。

关键设计：AgencyBench的关键设计包括：1) 场景选择：选择具有代表性的真实世界场景，例如旅行规划、产品推荐等。2) 任务设计：将每个场景分解为多个子任务，需要Agent执行一系列工具调用才能完成。3) 用户模拟Agent设计：设计能够根据Agent的输出提供合理反馈的Agent，例如根据Agent推荐的酒店，询问价格、位置等信息。4) 评价标准设计：设计能够客观评估Agent输出质量和完成度的评价标准，例如评估Agent推荐的酒店是否符合用户的需求。

📊 实验亮点

实验结果表明，闭源模型在AgencyBench上的平均性能为48.4%，明显优于开源模型的32.1%。进一步分析发现，不同模型在资源效率、反馈驱动的自我纠正和特定工具使用偏好方面存在显著差异。例如，Claude-4.5-Opus在Claude-Agent-SDK框架下表现出卓越的性能，而开源模型则在特定执行框架下表现出性能峰值。

🎯 应用场景

AgencyBench可用于评估和比较不同自主Agent的性能，指导Agent的开发和优化。它还可以用于研究Agent框架对Agent性能的影响，促进模型架构与Agent框架的协同优化。该基准测试有助于推动自主Agent技术的发展，使其更好地服务于现实世界的应用。

📄 摘要（原文）

Large Language Models (LLMs) based autonomous agents demonstrate multifaceted capabilities to contribute substantially to economic production. However, existing benchmarks remain focused on single agentic capability, failing to capture long-horizon real-world scenarios. Moreover, the reliance on human-in-the-loop feedback for realistic tasks creates a scalability bottleneck, hindering automated rollout collection and evaluation. To bridge this gap, we introduce AgencyBench, a comprehensive benchmark derived from daily AI usage, evaluating 6 core agentic capabilities across 32 real-world scenarios, comprising 138 tasks with specific queries, deliverables, and rubrics. These scenarios require an average of 90 tool calls, 1 million tokens, and hours of execution time to resolve. To enable automated evaluation, we employ a user simulation agent to provide iterative feedback, and a Docker sandbox to conduct visual and functional rubric-based assessment. Experiments reveal that closed-source models significantly outperform open-source models (48.4% vs 32.1%). Further analysis reveals significant disparities across models in resource efficiency, feedback-driven self-correction, and specific tool-use preferences. Finally, we investigate the impact of agentic scaffolds, observing that proprietary models demonstrate superior performance within their native ecosystems (e.g., Claude-4.5-Opus via Claude-Agent-SDK), while open-source models exhibit distinct performance peaks, suggesting potential optimization for specific execution frameworks. AgencyBench serves as a critical testbed for next-generation agents, highlighting the necessity of co-optimizing model architecture with agentic frameworks. We believe this work sheds light on the future direction of autonomous agents, and we release the full benchmark and evaluation toolkit at https://github.com/GAIR-NLP/AgencyBench.

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理