AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts
作者: Keyu Li, Junhao Shi, Yang Xiao, Mohan Jiang, Jie Sun, Yunze Wu, Shijie Xia, Xiaojie Cai, Tianze Xu, Weiye Si, Wenjie Li, Dequan Wang, Pengfei Liu
分类: cs.AI
发布日期: 2026-01-16
🔗 代码/项目: GITHUB
💡 一句话要点
AgencyBench:百万Token真实世界上下文中的自主Agent基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自主Agent 基准测试 大型语言模型 真实世界场景 自动化评估
📋 核心要点
- 现有Agent基准测试侧重于单一能力,缺乏对长时程、真实世界场景的全面评估,限制了对Agent能力的深入理解。
- AgencyBench通过模拟真实用户场景,构建包含多种Agent能力、长时程任务的综合性基准测试,并提供自动化的评估方法。
- 实验结果表明,闭源模型在AgencyBench上表现优于开源模型,并在资源效率、自我纠正等方面存在显著差异。
📝 摘要(中文)
基于大型语言模型(LLM)的自主Agent展现出多方面的能力,有望为经济生产做出重大贡献。然而,现有的基准测试仍然侧重于单一的Agent能力,无法捕捉到长期的真实世界场景。此外,依赖于人工反馈来实现真实任务会产生可扩展性瓶颈,阻碍了自动化的rollout收集和评估。为了弥合这一差距,我们推出了AgencyBench,这是一个源自日常AI使用的综合基准测试,评估了32个真实世界场景中的6个核心Agent能力,包含138个具有特定查询、可交付成果和评价标准的任务。这些场景平均需要90次工具调用、100万个Token和数小时的执行时间才能解决。为了实现自动评估,我们采用用户模拟Agent来提供迭代反馈,并使用Docker沙箱来进行基于视觉和功能性评价标准的评估。实验表明,闭源模型明显优于开源模型(48.4% vs 32.1%)。进一步的分析揭示了模型在资源效率、反馈驱动的自我纠正和特定工具使用偏好方面的显著差异。最后,我们研究了Agent框架的影响,观察到专有模型在其原生生态系统中表现出卓越的性能(例如,通过Claude-Agent-SDK的Claude-4.5-Opus),而开源模型则表现出明显的性能峰值,表明可能针对特定执行框架进行优化。AgencyBench是下一代Agent的关键测试平台,突出了模型架构与Agent框架协同优化的必要性。我们相信这项工作揭示了自主Agent的未来方向,并发布了完整的基准测试和评估工具包。
🔬 方法详解
问题定义:现有自主Agent的评测基准主要集中在单一能力,例如代码生成或文本摘要。缺乏一个能够模拟真实世界复杂场景,并全面评估Agent在长时程任务中表现的基准。此外,依赖人工反馈进行评估的方式成本高昂且难以扩展,阻碍了Agent的快速迭代和优化。
核心思路:AgencyBench的核心思路是构建一个贴近真实用户使用场景的基准测试,包含多个需要Agent协同完成的复杂任务。通过用户模拟Agent提供迭代反馈,并利用Docker沙箱进行自动化评估,从而降低评估成本并提高可扩展性。
技术框架:AgencyBench包含以下主要模块:1) 真实世界场景定义:选取32个源自日常AI使用的真实场景,每个场景包含多个任务,需要Agent执行一系列工具调用才能完成。2) 用户模拟Agent:模拟真实用户,根据Agent的输出提供迭代反馈,引导Agent完成任务。3) Docker沙箱:提供隔离的执行环境,用于执行Agent的工具调用,并进行视觉和功能性评估。4) 自动化评估:基于预定义的评价标准,自动评估Agent的输出质量和完成度。
关键创新:AgencyBench的关键创新在于:1) 提出了一个综合性的Agent基准测试,能够评估Agent在长时程、复杂任务中的表现。2) 引入了用户模拟Agent和Docker沙箱,实现了自动化的评估流程,降低了评估成本并提高了可扩展性。3) 提供了详细的评价标准,能够客观地评估Agent的输出质量和完成度。
关键设计:AgencyBench的关键设计包括:1) 场景选择:选择具有代表性的真实世界场景,例如旅行规划、产品推荐等。2) 任务设计:将每个场景分解为多个子任务,需要Agent执行一系列工具调用才能完成。3) 用户模拟Agent设计:设计能够根据Agent的输出提供合理反馈的Agent,例如根据Agent推荐的酒店,询问价格、位置等信息。4) 评价标准设计:设计能够客观评估Agent输出质量和完成度的评价标准,例如评估Agent推荐的酒店是否符合用户的需求。
📊 实验亮点
实验结果表明,闭源模型在AgencyBench上的平均性能为48.4%,明显优于开源模型的32.1%。进一步分析发现,不同模型在资源效率、反馈驱动的自我纠正和特定工具使用偏好方面存在显著差异。例如,Claude-4.5-Opus在Claude-Agent-SDK框架下表现出卓越的性能,而开源模型则在特定执行框架下表现出性能峰值。
🎯 应用场景
AgencyBench可用于评估和比较不同自主Agent的性能,指导Agent的开发和优化。它还可以用于研究Agent框架对Agent性能的影响,促进模型架构与Agent框架的协同优化。该基准测试有助于推动自主Agent技术的发展,使其更好地服务于现实世界的应用。
📄 摘要(原文)
Large Language Models (LLMs) based autonomous agents demonstrate multifaceted capabilities to contribute substantially to economic production. However, existing benchmarks remain focused on single agentic capability, failing to capture long-horizon real-world scenarios. Moreover, the reliance on human-in-the-loop feedback for realistic tasks creates a scalability bottleneck, hindering automated rollout collection and evaluation. To bridge this gap, we introduce AgencyBench, a comprehensive benchmark derived from daily AI usage, evaluating 6 core agentic capabilities across 32 real-world scenarios, comprising 138 tasks with specific queries, deliverables, and rubrics. These scenarios require an average of 90 tool calls, 1 million tokens, and hours of execution time to resolve. To enable automated evaluation, we employ a user simulation agent to provide iterative feedback, and a Docker sandbox to conduct visual and functional rubric-based assessment. Experiments reveal that closed-source models significantly outperform open-source models (48.4% vs 32.1%). Further analysis reveals significant disparities across models in resource efficiency, feedback-driven self-correction, and specific tool-use preferences. Finally, we investigate the impact of agentic scaffolds, observing that proprietary models demonstrate superior performance within their native ecosystems (e.g., Claude-4.5-Opus via Claude-Agent-SDK), while open-source models exhibit distinct performance peaks, suggesting potential optimization for specific execution frameworks. AgencyBench serves as a critical testbed for next-generation agents, highlighting the necessity of co-optimizing model architecture with agentic frameworks. We believe this work sheds light on the future direction of autonomous agents, and we release the full benchmark and evaluation toolkit at https://github.com/GAIR-NLP/AgencyBench.