Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

📄 arXiv: 2604.06132v1 📥 PDF

作者: Bowen Ye, Rang Li, Qibin Yang, Yuanxin Liu, Linli Yao, Hanglong Lv, Zhihui Xie, Chenxin An, Lei Li, Lingpeng Kong, Qi Liu, Zhifang Sui, Tong Yang

分类: cs.AI

发布日期: 2026-04-07


💡 一句话要点

Claw-Eval:提出可信的自主Agent评估基准,解决现有评估方法的局限性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自主Agent 评估基准 轨迹感知 安全性 鲁棒性 多模态 语言模型 软件环境

📋 核心要点

  1. 现有Agent评估基准存在轨迹不透明、安全性鲁棒性评估不足、模态覆盖窄等问题。
  2. Claw-Eval通过记录Agent行为轨迹,细粒度评估完成度、安全性和鲁棒性,解决现有评估的局限。
  3. 实验表明,轨迹不透明评估不可靠,错误注入主要影响一致性,多模态性能差异大。

📝 摘要(中文)

大型语言模型越来越多地被部署为自主Agent,在真实软件环境中执行多步骤工作流程。然而,现有的Agent基准测试存在三个关键限制:(1)轨迹不透明的评分,仅检查最终输出;(2)安全性和鲁棒性评估不充分;(3)模态覆盖范围和交互范式狭窄。我们引入Claw-Eval,一个端到端评估套件,解决了所有这三个问题。它包含300个经过人工验证的任务,涵盖三个组别的9个类别(通用服务编排、多模态感知和生成以及多轮专业对话)。每个Agent动作都通过三个独立的证据通道(执行跟踪、审计日志和环境快照)记录,从而能够对2,159个细粒度评分项目进行轨迹感知评分。评分协议评估完成度、安全性和鲁棒性,报告平均得分、Pass@k和Pass^k,通过三次试验来区分真正的能力和偶然的结果。对14个前沿模型的实验表明:(1)轨迹不透明的评估是系统性不可靠的,错过了44%的安全违规和13%的鲁棒性失败,而我们的混合管道可以捕获这些违规和失败;(2)受控的错误注入主要降低了一致性而不是峰值能力,Pass^3下降高达24%,而Pass@3保持稳定;(3)多模态性能差异很大,大多数模型在视频上的表现比在文档或图像上差,并且没有一个模型在所有模态上都占主导地位。除了基准测试之外,Claw-Eval还突出了Agent开发的可行方向,阐明了构建不仅有能力而且可靠可部署的Agent需要什么。

🔬 方法详解

问题定义:现有自主Agent的评估基准主要存在三个问题:一是轨迹不透明,仅关注最终结果,忽略了中间步骤的安全性与合理性;二是安全性和鲁棒性评估不足,无法有效检测Agent在复杂环境下的潜在风险;三是模态覆盖范围狭窄,难以全面评估Agent在多模态场景下的能力。这些问题导致对Agent能力的评估不准确,阻碍了Agent的可靠部署。

核心思路:Claw-Eval的核心思路是通过引入轨迹感知的评估方法,全面记录Agent的执行过程,并结合细粒度的评分标准,对Agent的完成度、安全性和鲁棒性进行综合评估。通过多模态任务的设置,考察Agent在不同模态下的表现,从而更准确地评估Agent的真实能力。

技术框架:Claw-Eval包含以下主要模块:1) 任务定义模块:定义了300个涵盖通用服务编排、多模态感知与生成、多轮专业对话等9个类别的任务。2) 行为记录模块:通过执行跟踪、审计日志和环境快照三个独立的证据通道,记录Agent的每一个动作。3) 评分模块:基于2159个细粒度的评分项目,对Agent的完成度、安全性和鲁棒性进行评分。4) 评估指标模块:采用平均得分、Pass@k和Pass^k等指标,评估Agent的性能和一致性。

关键创新:Claw-Eval最重要的创新在于其轨迹感知的评估方法。通过记录Agent的执行轨迹,可以更全面地了解Agent的行为,从而更准确地评估Agent的安全性、鲁棒性和完成度。此外,Claw-Eval还引入了多模态任务,考察Agent在不同模态下的表现,从而更全面地评估Agent的能力。

关键设计:Claw-Eval的关键设计包括:1) 三个独立的证据通道,确保行为记录的完整性和可靠性。2) 细粒度的评分标准,能够更准确地评估Agent的性能。3) Pass@k和Pass^k指标,用于评估Agent的性能和一致性。4) 多模态任务的设计,考察Agent在不同模态下的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,轨迹不透明的评估会遗漏44%的安全违规和13%的鲁棒性失败。受控错误注入主要降低Agent的一致性,Pass^3下降高达24%,而Pass@3保持稳定。多模态性能差异显著,大多数模型在视频上的表现不如文档或图像。没有一个模型在所有模态上都表现最佳。

🎯 应用场景

Claw-Eval可用于评估和改进各种自主Agent,例如智能助手、自动化工具和机器人。通过使用Claw-Eval,开发者可以更好地了解Agent的性能瓶颈,并针对性地进行改进,从而提高Agent的可靠性和安全性。该基准测试还有助于推动Agent技术的发展,促进Agent在各个领域的应用。

📄 摘要(原文)

Large language models are increasingly deployed as autonomous agents executing multi-step workflows in real-world software environments. However, existing agent benchmarks suffer from three critical limitations: (1) trajectory-opaque grading that checks only final outputs, (2) underspecified safety and robustness evaluation, and (3) narrow modality coverage and interaction paradigms. We introduce Claw-Eval, an end-to-end evaluation suite addressing all three gaps. It comprises 300 human-verified tasks spanning 9 categories across three groups (general service orchestration, multimodal perception and generation, and multi-turn professional dialogue). Every agent action is recorded through three independent evidence channels (execution traces, audit logs, and environment snapshots), enabling trajectory-aware grading over 2,159 fine-grained rubric items. The scoring protocol evaluates Completion, Safety, and Robustness, reporting Average Score, Pass@k, and Pass^k across three trials to distinguish genuine capability from lucky outcomes. Experiments on 14 frontier models reveal that: (1) trajectory-opaque evaluation is systematically unreliable, missing 44% of safety violations and 13% of robustness failures that our hybrid pipeline catches; (2) controlled error injection primarily degrades consistency rather than peak capability, with Pass^3 dropping up to 24% while Pass@3 remains stable; (3) multimodal performance varies sharply, with most models performing poorer on video than on document or image, and no single model dominating across all modalities. Beyond benchmarking, Claw-Eval highlights actionable directions for agent development, shedding light on what it takes to build agents that are not only capable but reliably deployable.