Agentick: A Unified Benchmark for General Sequential Decision-Making Agents
作者: Roger Creus Castanyer, Pablo Samuel Castro, Glen Berseth
分类: cs.AI
发布日期: 2026-05-07
💡 一句话要点
提出Agentick基准测试框架,实现对强化学习与大模型智能体在序列决策任务上的统一评估。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 序列决策 智能体评估 强化学习 大语言模型 多模态感知 基准测试
📋 核心要点
- 现有智能体研究缺乏统一的评估标准,导致强化学习与大模型智能体在不同任务环境下难以进行公平的性能对比。
- Agentick通过提供37个程序化生成的序列决策任务,涵盖多种能力维度与观测模态,构建了一个标准化的评估与训练平台。
- 实验表明不同智能体范式各具优势,推理工具包能显著提升LLM性能,且ASCII观测模态在序列决策中表现出优于自然语言的潜力。
📝 摘要(中文)
AI智能体研究涵盖了从零开始学习的强化学习(RL)智能体到利用预训练知识的基础模型智能体等广泛领域,但目前缺乏统一的基准测试来公平比较这些方法。本文提出了Agentick,这是一个专为序列决策智能体设计的基准测试,旨在评估RL、LLM、VLM、混合及人类智能体在统一环境下的表现。Agentick提供了37个程序化生成的任务,涵盖6个能力类别、4个难度等级和5种观测模态,并通过Gymnasium兼容接口提供支持。该基准包含编码API、Oracle参考策略、预构建SFT数据集、可组合智能体工具包及实时排行榜。通过对27种配置和9万余个回合的评估发现,没有单一方法占据绝对优势:GPT-4o-mini在综合得分上领先,而PPO在规划和多智能体任务中表现更佳;推理工具包可将LLM性能提升3-10倍,且ASCII观测效果优于自然语言。这些发现揭示了各类智能体范式仍有巨大提升空间。
🔬 方法详解
问题定义:当前智能体研究领域碎片化严重,RL智能体与基于大模型的智能体在评估环境、观测空间及评价指标上存在显著差异,导致无法在统一基准下衡量不同范式的决策能力与泛化性。
核心思路:Agentick旨在构建一个“通用序列决策”的统一评估框架。通过将任务解构为能力维度(如规划、推理、多智能体协作等),并提供多模态观测接口,使不同架构的智能体(从端到端RL到提示词工程的LLM)能在同一基准下进行定量比较。
技术框架:该框架基于Gymnasium接口,包含任务生成器、统一观测空间(支持文本、ASCII、图像等)、Oracle参考策略库以及一套可组合的智能体工具包(Reasoning Harness)。它支持从环境交互到SFT数据生成的全流程闭环。
关键创新:引入了能力解构的评估设计,不仅关注最终成功率,还通过Oracle策略提供最优路径参考。此外,通过引入ASCII观测模态,探索了在低维空间下提升大模型序列决策效率的可能性,弥补了自然语言在空间感知上的不足。
关键设计:系统内置了针对不同任务的Oracle参考策略,用于计算归一化得分;设计了模块化的推理工具包,允许用户灵活组合思维链(CoT)等策略;支持多种观测模态的对齐,确保不同智能体在相同信息熵下进行博弈。
🖼️ 关键图片
📊 实验亮点
实验覆盖27种智能体配置与9万余个回合,结果显示GPT-4o-mini综合得分领先(0.309),但PPO在规划任务中表现更优。研究发现推理工具包可将LLM性能提升3-10倍,且ASCII观测模态在序列决策任务中表现出显著优于自然语言的性能,为未来多模态智能体设计提供了重要参考。
🎯 应用场景
Agentick可广泛应用于通用人工智能(AGI)的研发,作为评估大模型序列决策能力的行业标准。它不仅是研究人员测试新型智能体架构的实验场,也为强化学习后训练(RL Post-training)提供了高质量的序列环境,对提升机器人控制、自动化办公及复杂逻辑推理智能体的实际落地具有重要价值。
📄 摘要(原文)
AI agent research spans a wide spectrum: from RL agents that learn from scratch to foundation model agents that leverage pre-trained knowledge, yet no unified benchmark enables fair comparison across these approaches. We present Agentick, a benchmark for sequential decision-making agents designed to evaluate RL, LLM, VLM, hybrid, and human agents on common ground and to power research on the fundamental challenges of sequential decision-making. Agentick provides 37 procedurally generated tasks across six capability categories, four difficulty levels, and five observation modalities, all exposed through a single Gymnasium-compatible interface. The benchmark ships with a Coding API, oracle reference policies for all tasks, pre-built SFT datasets, a composable agent harness, and a live leaderboard. An evaluation spanning 27 configurations and over 90,000 episodes reveals that no single approach dominates: GPT-5 mini leads overall at 0.309 oracle-normalized score while PPO dominates planning and multi-agent tasks; the reasoning harness multiplies LLM performance by 3-10x; and ASCII observations consistently outperform natural language. These findings highlight the substantial room for improvement that remains across all agent paradigms. Agentick's capability-decomposed, multi-modal design provides the empirical infrastructure needed to drive progress toward general autonomous agents, both as an evaluation framework and as a training ground for RL post-training of foundation models in truly sequential environments.