CocoaBench: Evaluating Unified Digital Agents in the Wild

📄 arXiv: 2604.11201v1 📥 PDF

作者: CocoaBench Team, Shibo Hao, Zhining Zhang, Zhiqi Liang, Tianyang Liu, Yuheng Zha, Qiyue Gao, Jixuan Chen, Zilong Wang, Zhoujun Cheng, Haoxiang Zhang, Junli Wang, Hexi Jin, Boyuan Zheng, Kun Zhou, Yu Wang, Feng Yao, Licheng Liu, Yijiang Li, Zhifei Li, Zhengtao Han, Pracha Promthaw, Tommaso Cerruti, Xiaohan Fu, Ziqiao Ma, Jingbo Shang, Lianhui Qin, Julian McAuley, Eric P. Xing, Zhengzhong Liu, Rupesh Kumar Srivastava, Zhiting Hu

分类: cs.CL, cs.AI

发布日期: 2026-04-13


💡 一句话要点

提出 CocoaBench,用于评估统一数字智能体在复杂任务中的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 统一数字智能体 多模态任务 长时程任务 基准测试 视觉 搜索 编码

📋 核心要点

  1. 现有智能体评估方法侧重于孤立能力测试,缺乏对组合多种能力以完成复杂任务的综合评估。
  2. CocoaBench基准通过人工设计的长时程任务,评估智能体在视觉、搜索和编码等能力上的灵活组合。
  3. 实验表明,现有智能体在CocoaBench上的表现离可靠水平仍有差距,最佳系统成功率仅为45.1%。

📝 摘要(中文)

LLM智能体在软件工程、深度研究、GUI自动化等领域表现出色,并且最新的智能体框架和模型正不断将这些能力整合到统一的系统中。然而,大多数评估仍然孤立地测试这些能力,这导致在需要智能体组合不同能力的更多样化用例中存在差距。我们介绍了 CocoaBench,这是一个用于统一数字智能体的基准,它由人工设计的、长时程的任务构建,这些任务需要灵活地组合视觉、搜索和编码能力。任务仅通过指令和最终输出的自动评估函数来指定,从而能够在各种智能体基础设施上进行可靠且可扩展的评估。我们还提出了 CocoaAgent,这是一个轻量级的共享框架,用于跨模型骨干网进行受控比较。实验表明,当前的智能体在CocoaBench上的表现远未达到可靠水平,最佳评估系统的成功率仅为45.1%。我们的分析进一步表明,在推理和规划、工具使用和执行以及视觉基础方面仍有很大的改进空间。

🔬 方法详解

问题定义:现有的大语言模型智能体评估benchmark通常侧重于评估智能体在特定领域的独立能力,例如代码生成、文本摘要等。然而,现实世界的任务往往需要智能体具备多种能力的组合,例如,需要同时理解图像、进行网络搜索、并编写代码来完成一个复杂的任务。现有的评估方法无法有效地衡量智能体在这些复杂场景下的表现,阻碍了通用智能体的发展。

核心思路:CocoaBench的核心思路是构建一个包含多种复杂任务的benchmark,这些任务需要智能体灵活地组合视觉、搜索和编码等能力才能完成。通过这种方式,可以更全面地评估智能体在真实世界场景下的表现,并促进智能体在多模态理解、工具使用和长期规划等方面的能力提升。

技术框架:CocoaBench包含一系列人工设计的长时程任务,每个任务都由一个自然语言指令和一个自动评估函数组成。智能体需要根据指令,利用各种工具(例如搜索引擎、代码解释器等)来完成任务,并最终生成一个输出。评估函数会自动判断智能体的输出是否符合任务要求,从而给出智能体的成功率。此外,作者还提出了一个名为CocoaAgent的轻量级共享框架,用于在不同的模型骨干网络上进行受控比较。

关键创新:CocoaBench的关键创新在于其任务设计的复杂性和多样性。这些任务不仅需要智能体具备多种能力,还需要智能体进行长期规划和推理,才能最终完成。此外,CocoaBench的自动评估函数可以实现大规模的评估,从而加速智能体的开发和迭代。

关键设计:CocoaBench的任务设计注重真实性和多样性,涵盖了各种不同的场景和任务类型。例如,一些任务需要智能体根据图像信息来搜索相关信息,并编写代码来处理数据;另一些任务则需要智能体根据用户的指令来自动化GUI操作。此外,CocoaBench还提供了一套标准的API,方便智能体调用各种工具和服务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当前最先进的智能体在CocoaBench上的成功率仅为45.1%,这表明现有智能体在复杂任务处理方面仍有很大的提升空间。分析结果还表明,智能体在推理和规划、工具使用和执行以及视觉基础等方面存在不足,这些都是未来研究的重要方向。

🎯 应用场景

CocoaBench可用于评估和提升通用数字智能体在各种实际应用中的表现,例如智能助手、自动化办公、机器人控制等。通过该基准,研究人员可以更好地了解现有智能体的优势和不足,并开发出更强大的智能体,从而提高生产效率和生活质量。

📄 摘要(原文)

LLM agents now perform strongly in software engineering, deep research, GUI automation, and various other applications, while recent agent scaffolds and models are increasingly integrating these capabilities into unified systems. Yet, most evaluations still test these capabilities in isolation, which leaves a gap for more diverse use cases that require agents to combine different capabilities. We introduce CocoaBench, a benchmark for unified digital agents built from human-designed, long-horizon tasks that require flexible composition of vision, search, and coding. Tasks are specified only by an instruction and an automatic evaluation function over the final output, enabling reliable and scalable evaluation across diverse agent infrastructures. We also present CocoaAgent, a lightweight shared scaffold for controlled comparison across model backbones. Experiments show that current agents remain far from reliable on CocoaBench, with the best evaluated system achieving only 45.1% success rate. Our analysis further points to substantial room for improvement in reasoning and planning, tool use and execution, and visual grounding.