STAGE-Claw: Automated State-based Agent Benchmarking for Realistic Scenarios

📄 arXiv: 2606.10394v1 📥 PDF

作者: Sirui Liang, Bohan Yu, Peiyu Wang, Shiguang Guo, Wenxing Hu, Pengfei Cao, Jian Zhao, Cao Liu, Ke Zeng, Xunliang Cai, Kang Liu

分类: cs.AI

发布日期: 2026-06-09


💡 一句话要点

提出STAGE-Claw框架以解决个人代理评估的挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个人代理 评估框架 自动化生成 真实场景 性能评估 大型语言模型 基准测试

📋 核心要点

  1. 现有的个人代理评估方法依赖于静态任务和粗糙评分,缺乏可扩展性和可靠性。
  2. STAGE-Claw框架通过自动创建和验证基准任务,提供了一种新的评估方式,关注最终系统状态的正确性。
  3. 通过STAGE-Claw,创建了40个真实场景任务,评估了11个模型,分析了其性能和常见失败模式。

📝 摘要(中文)

随着大型语言模型在日常应用中越来越多地用于驱动个人代理,评估这些代理的有效性仍然是一个挑战。现有的基准测试依赖于沙箱化的工件、静态任务设计和粗糙的评分,这限制了可扩展性并阻碍了可靠的个人代理评估的进展。本文提出了STAGE-Claw,一个自动化框架,用于在基于状态的个人计算环境中构建和评估现实的个人代理场景。STAGE-Claw能够根据任务提示自动创建和验证现实的基准任务,包括环境、任务提示、真实答案和相关验证程序。代理在真实操作环境中进行评估,性能通过最终系统状态的正确性来衡量,而不仅仅是文本响应。使用STAGE-Claw,本文创建了一个包含40个具有挑战性的真实场景代理任务的基准,评估了11个前沿模型,并分析了它们的任务得分、成本、工具调用可靠性和常见失败模式。总体而言,STAGE-Claw提供了一种可扩展的、基于状态的方式来评估代理在现实用户场景中的表现。

🔬 方法详解

问题定义:本文旨在解决现有个人代理评估方法的不足,特别是依赖于静态任务和粗糙评分的局限性,这导致评估结果的可靠性和可扩展性不足。

核心思路:STAGE-Claw框架的核心思想是自动化生成和验证现实的基准任务,通过关注最终系统状态的正确性来提供更准确的评估。这样的设计使得评估不仅限于文本响应,而是考虑代理在真实环境中的表现。

技术框架:STAGE-Claw的整体架构包括任务提示生成、环境构建、基准任务验证和性能评估四个主要模块。首先,根据任务提示自动生成任务环境,然后验证生成的任务是否符合现实场景,最后通过系统状态的正确性来评估代理的性能。

关键创新:STAGE-Claw的主要创新在于其自动化生成和验证基准任务的能力,使得评估过程更加灵活和高效。这与传统方法的静态设计形成鲜明对比,提供了更具适应性的评估框架。

关键设计:在设计中,STAGE-Claw采用了多种验证程序来确保生成任务的真实性,并通过一系列性能指标来评估代理的表现,包括任务得分、工具调用的可靠性等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在实验中,STAGE-Claw成功创建了40个具有挑战性的真实场景任务,并对11个前沿模型进行了评估。结果显示,使用STAGE-Claw的评估方法相比传统方法在任务得分和工具调用可靠性上有显著提升,展示了其在真实场景中的有效性。

🎯 应用场景

STAGE-Claw框架具有广泛的应用潜力,特别是在个人助手、智能客服和自动化办公等领域。通过提供更可靠的评估机制,该框架能够帮助开发者优化代理性能,提升用户体验,并推动智能代理技术的进一步发展。

📄 摘要(原文)

Large language models are increasingly used to power personal agents for everyday applications, but evaluating these agents remains a challenge. Existing benchmarks still rely on sandboxed artifacts, static task design, and coarse scoring, which hinder scalability and limit progress toward reliable personal-agent evaluation. This paper introduces STAGE-Claw, an automated framework for building and evaluating realistic personal-agent scenarios in state-based personal-computing environments. Given a task hint, STAGE-Claw automatically creates and validates a realistic benchmark task with its environment, task prompts, ground truth, and related verification programs. Agents are then evaluated in realistic operating environments, where performance is measured by the correctness of the final system state rather than only the textual response. Using STAGE-Claw, this paper creates a benchmark with 40 challenging real scenario agent tasks, evaluates 11 frontier models, and analyzes their task scores, costs, tool-call reliability, and common failure patterns. Overall, STAGE-Claw offers a scalable, state-based way to evaluate agents in realistic user scenarios.