WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation
作者: Shuangrui Ding, Xuanlang Dai, Long Xing, Shengyuan Ding, Ziyu Liu, Yang JingYi, Penghui Yang, Zhixiong Zhang, Xilin Wei, Xinyu Fang, Yubo Ma, Haodong Duan, Jing Shao, Jiaqi Wang, Dahua Lin, Kai Chen, Yuhang Zang
分类: cs.CL
发布日期: 2026-05-11
备注: Github link: https://github.com/internlm/WildClawBench
💡 一句话要点
提出WildClawBench基准测试,旨在解决真实运行环境下长周期智能体评估难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 智能体评估 长周期任务 多模态交互 命令行界面 基准测试 环境审计
📋 核心要点
- 现有基准测试多依赖模拟环境与短周期任务,无法真实反映智能体在复杂、长周期实际工作流中的部署表现。
- 提出WildClawBench基准,通过Docker容器化部署真实CLI环境,引入多模态任务与混合评估机制,实现对智能体能力的全面度量。
- 实验表明,即使是顶尖模型在长周期任务中表现仍不理想,且智能体框架的选择对性能有显著影响,揭示了当前评估体系的局限性。
📝 摘要(中文)
大型语言模型与视觉语言模型正日益驱动智能体通过命令行界面(CLI)执行任务。然而,现有智能体基准测试多依赖合成沙盒、短周期任务、模拟API及最终答案检查,难以验证智能体在真实部署环境下的长周期工作能力。为此,本文提出了WildClawBench,这是一个包含60个由人类编写、双语、多模态任务的基准测试,涵盖六大主题。每个任务平均耗时约8分钟,涉及超过20次工具调用,并在包含真实CLI智能体框架(如OpenClaw、Claude Code等)的Docker容器中运行。评估采用混合机制,结合确定性规则检查、环境状态审计及LLM/VLM语义验证。在19个前沿模型的测试中,表现最好的Claude Opus 4.7仅达到62.2%的准确率,且更换框架会导致模型性能波动高达18个百分点,表明长周期、原生运行环境下的智能体评估仍是当前前沿模型面临的严峻挑战。
🔬 方法详解
问题定义:现有智能体评估严重依赖“沙盒化”环境和静态答案检查,忽略了真实世界中长周期任务的复杂性、环境副作用以及工具链的实际交互逻辑,导致模型在实验室环境与实际部署场景间存在巨大的性能鸿沟。
核心思路:构建一个“原生运行环境”基准,通过Docker容器模拟真实的开发与操作环境,强制智能体在真实CLI工具链中执行任务,从而评估其在长时序、多步骤、高交互复杂场景下的鲁棒性与规划能力。
技术框架:该框架包含三个核心层级:任务层(60个涵盖系统管理、数据处理等真实场景的双语任务)、执行层(基于Docker的隔离环境,集成OpenClaw等主流CLI智能体框架)、评估层(采用混合评估策略,包括基于规则的确定性检查、环境状态审计以及基于LLM/VLM的语义一致性验证)。
关键创新:首次将评估重心从“最终答案”转向“过程执行”,通过环境状态审计(Environment-state auditing)捕捉任务执行过程中的副作用,并引入多模态感知能力,使智能体能够处理包含视觉反馈的复杂CLI任务。
关键设计:采用了高度可复现的容器化架构,确保不同模型在完全一致的系统配置下运行;评估指标不仅关注任务完成率,还通过多维度的混合评分机制,量化了智能体在工具调用效率、错误恢复及长时序规划方面的表现。
🖼️ 关键图片
📊 实验亮点
实验覆盖19个前沿模型,结果显示即使是表现最优的Claude Opus 4.7也仅达到62.2%的成功率,其余模型均低于60%。研究发现,仅更换底层智能体框架(Harness)即可导致模型性能产生高达18个百分点的波动,证明了评估环境对智能体性能度量的决定性影响。
🎯 应用场景
该研究主要应用于AI智能体开发与评估领域,特别适用于自动化运维、软件工程辅助及复杂系统控制等场景。通过提供标准化的长周期评估工具,它能帮助开发者识别模型在真实工具链交互中的瓶颈,推动智能体从简单的问答向具备复杂任务规划与执行能力的自主系统演进。
📄 摘要(原文)
Large language and vision-language models increasingly power agents that act on a user's behalf through command-line interface (CLI) harnesses. However, most agent benchmarks still rely on synthetic sandboxes, short-horizon tasks, mock-service APIs, and final-answer checks, leaving open whether agents can complete realistic long-horizon work in the runtimes where they are deployed. This work presents WildClawBench, a native-runtime benchmark of 60 human-authored, bilingual, multimodal tasks spanning six thematic categories. Each task averages roughly 8 minutes of wall-clock time and over 20 tool calls, and runs inside a reproducible Docker container hosting an actual CLI agent harness (OpenClaw, Claude Code, Codex, or Hermes Agent) with access to real tools rather than mock services. Grading is hybrid, combining deterministic rule-based checks, environment-state auditing of side effects, and an LLM/VLM judge for semantic verification. Across 19 frontier models, the best, Claude Opus 4.7, reaches only 62.2% overall under OpenClaw, while every other model stays below 60%, and switching harness alone shifts a single model by up to 18 points. These results show that long-horizon, native-runtime agent evaluation remains a far-from-resolved task for current frontier models. We release the tasks, code, and containerized tooling to support reproducible evaluation.