Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

作者: Bowen Ye, Rang Li, Qibin Yang, Yuanxin Liu, Linli Yao, Hanglong Lv, Zhihui Xie, Chenxin An, Lei Li, Lingpeng Kong, Qi Liu, Zhifang Sui, Tong Yang

分类: cs.AI

发布日期: 2026-04-07

💡 一句话要点

Claw-Eval：提出可信的自主Agent评估基准，解决现有评估方法的局限性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自主Agent 评估基准 轨迹感知 安全性 鲁棒性 多模态 语言模型 软件环境

📋 核心要点

现有Agent评估基准存在轨迹不透明、安全性鲁棒性评估不足、模态覆盖窄等问题。
Claw-Eval通过记录Agent行为轨迹，细粒度评估完成度、安全性和鲁棒性，解决现有评估的局限。
实验表明，轨迹不透明评估不可靠，错误注入主要影响一致性，多模态性能差异大。

📝 摘要（中文）

大型语言模型越来越多地被部署为自主Agent，在真实软件环境中执行多步骤工作流程。然而，现有的Agent基准测试存在三个关键限制：（1）轨迹不透明的评分，仅检查最终输出；（2）安全性和鲁棒性评估不充分；（3）模态覆盖范围和交互范式狭窄。我们引入Claw-Eval，一个端到端评估套件，解决了所有这三个问题。它包含300个经过人工验证的任务，涵盖三个组别的9个类别（通用服务编排、多模态感知和生成以及多轮专业对话）。每个Agent动作都通过三个独立的证据通道（执行跟踪、审计日志和环境快照）记录，从而能够对2,159个细粒度评分项目进行轨迹感知评分。评分协议评估完成度、安全性和鲁棒性，报告平均得分、Pass@k和Pass^k，通过三次试验来区分真正的能力和偶然的结果。对14个前沿模型的实验表明：（1）轨迹不透明的评估是系统性不可靠的，错过了44%的安全违规和13%的鲁棒性失败，而我们的混合管道可以捕获这些违规和失败；（2）受控的错误注入主要降低了一致性而不是峰值能力，Pass^3下降高达24%，而Pass@3保持稳定；（3）多模态性能差异很大，大多数模型在视频上的表现比在文档或图像上差，并且没有一个模型在所有模态上都占主导地位。除了基准测试之外，Claw-Eval还突出了Agent开发的可行方向，阐明了构建不仅有能力而且可靠可部署的Agent需要什么。

🔬 方法详解

问题定义：现有自主Agent的评估基准主要存在三个问题：一是轨迹不透明，仅关注最终结果，忽略了中间步骤的安全性与合理性；二是安全性和鲁棒性评估不足，无法有效检测Agent在复杂环境下的潜在风险；三是模态覆盖范围狭窄，难以全面评估Agent在多模态场景下的能力。这些问题导致对Agent能力的评估不准确，阻碍了Agent的可靠部署。

核心思路：Claw-Eval的核心思路是通过引入轨迹感知的评估方法，全面记录Agent的执行过程，并结合细粒度的评分标准，对Agent的完成度、安全性和鲁棒性进行综合评估。通过多模态任务的设置，考察Agent在不同模态下的表现，从而更准确地评估Agent的真实能力。

技术框架：Claw-Eval包含以下主要模块：1) 任务定义模块：定义了300个涵盖通用服务编排、多模态感知与生成、多轮专业对话等9个类别的任务。2) 行为记录模块：通过执行跟踪、审计日志和环境快照三个独立的证据通道，记录Agent的每一个动作。3) 评分模块：基于2159个细粒度的评分项目，对Agent的完成度、安全性和鲁棒性进行评分。4) 评估指标模块：采用平均得分、Pass@k和Pass^k等指标，评估Agent的性能和一致性。

关键创新：Claw-Eval最重要的创新在于其轨迹感知的评估方法。通过记录Agent的执行轨迹，可以更全面地了解Agent的行为，从而更准确地评估Agent的安全性、鲁棒性和完成度。此外，Claw-Eval还引入了多模态任务，考察Agent在不同模态下的表现，从而更全面地评估Agent的能力。

关键设计：Claw-Eval的关键设计包括：1) 三个独立的证据通道，确保行为记录的完整性和可靠性。2) 细粒度的评分标准，能够更准确地评估Agent的性能。3) Pass@k和Pass^k指标，用于评估Agent的性能和一致性。4) 多模态任务的设计，考察Agent在不同模态下的表现。

🖼️ 关键图片

📊 实验亮点

实验结果表明，轨迹不透明的评估会遗漏44%的安全违规和13%的鲁棒性失败。受控错误注入主要降低Agent的一致性，Pass^3下降高达24%，而Pass@3保持稳定。多模态性能差异显著，大多数模型在视频上的表现不如文档或图像。没有一个模型在所有模态上都表现最佳。

🎯 应用场景

Claw-Eval可用于评估和改进各种自主Agent，例如智能助手、自动化工具和机器人。通过使用Claw-Eval，开发者可以更好地了解Agent的性能瓶颈，并针对性地进行改进，从而提高Agent的可靠性和安全性。该基准测试还有助于推动Agent技术的发展，促进Agent在各个领域的应用。

📄 摘要（原文）

Large language models are increasingly deployed as autonomous agents executing multi-step workflows in real-world software environments. However, existing agent benchmarks suffer from three critical limitations: (1) trajectory-opaque grading that checks only final outputs, (2) underspecified safety and robustness evaluation, and (3) narrow modality coverage and interaction paradigms. We introduce Claw-Eval, an end-to-end evaluation suite addressing all three gaps. It comprises 300 human-verified tasks spanning 9 categories across three groups (general service orchestration, multimodal perception and generation, and multi-turn professional dialogue). Every agent action is recorded through three independent evidence channels (execution traces, audit logs, and environment snapshots), enabling trajectory-aware grading over 2,159 fine-grained rubric items. The scoring protocol evaluates Completion, Safety, and Robustness, reporting Average Score, Pass@k, and Pass^k across three trials to distinguish genuine capability from lucky outcomes. Experiments on 14 frontier models reveal that: (1) trajectory-opaque evaluation is systematically unreliable, missing 44% of safety violations and 13% of robustness failures that our hybrid pipeline catches; (2) controlled error injection primarily degrades consistency rather than peak capability, with Pass^3 dropping up to 24% while Pass@3 remains stable; (3) multimodal performance varies sharply, with most models performing poorer on video than on document or image, and no single model dominating across all modalities. Beyond benchmarking, Claw-Eval highlights actionable directions for agent development, shedding light on what it takes to build agents that are not only capable but reliably deployable.

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理