Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments
作者: Romain Froger, Pierre Andrews, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Gerard Moreno-Torres Bertran, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Vladislav Vorotilov, Mengjue Wang, Ian Yu, Amine Benhalloum, Grégoire Mialon, Thomas Scialom
分类: cs.AI
发布日期: 2026-02-12
备注: Accepted as Oral at ICLR 2026
💡 一句话要点
Gaia2:用于评估LLM Agent在动态异步环境中性能的基准测试
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 基准测试 动态环境 异步环境 强化学习 Agent评估 多Agent协作
📋 核心要点
- 现有LLM Agent评估benchmark缺乏真实异步环境,难以反映实际应用中Agent面临的复杂性和挑战。
- Gaia2构建动态异步环境,包含时间约束、噪声事件、歧义解决和多Agent协作等复杂场景,更贴近现实。
- Gaia2提供细粒度动作级别评估和可验证奖励,便于强化学习训练,并揭示了现有模型在推理、效率和鲁棒性上的权衡。
📝 摘要(中文)
本文介绍了Gaia2,一个用于评估大型语言模型Agent在真实、异步环境中表现的基准测试。与之前的静态或同步评估不同,Gaia2引入了环境独立于Agent行为演变的场景,要求Agent在时间约束下运行,适应嘈杂和动态事件,解决歧义,并与其他Agent协作。每个场景都配有一个写操作验证器,实现细粒度的、动作级别的评估,并使Gaia2可以直接用于基于可验证奖励的强化学习。对最先进的专有和开源模型的评估表明,没有一个模型在所有能力上都占主导地位:GPT-5(高)达到了42% pass@1的最佳整体得分,但在时间敏感的任务上失败;Claude-4 Sonnet在准确性和速度之间进行权衡以降低成本;Kimi-K2在开源模型中领先,达到21% pass@1。这些结果突出了推理、效率、鲁棒性之间的基本权衡,并暴露了缩小“sim2real”差距的挑战。Gaia2构建于一个消费者环境之上,并使用开源的Agents Research Environments平台,旨在易于扩展。通过发布Gaia2以及基础的ARE框架,我们旨在为社区提供一个灵活的基础设施,用于开发、基准测试和训练下一代实用的Agent系统。
🔬 方法详解
问题定义:现有的大语言模型Agent评估基准通常采用静态或同步环境,无法充分测试Agent在真实世界中处理动态变化、异步事件和时间约束的能力。这些基准忽略了Agent与环境以及其他Agent之间复杂的交互,导致评估结果与实际应用场景存在较大差距。因此,需要一个更贴近现实、更具挑战性的评估框架来推动Agent技术的发展。
核心思路:Gaia2的核心思路是构建一个动态异步的Agent评估环境,模拟真实世界中Agent可能遇到的各种复杂情况。通过引入时间敏感的任务、噪声事件、歧义以及多Agent协作,Gaia2能够更全面地评估Agent的推理能力、适应能力和鲁棒性。同时,Gaia2提供细粒度的动作级别评估和可验证的奖励机制,方便进行强化学习训练。
技术框架:Gaia2构建于Agents Research Environments (ARE) 平台之上,该平台提供了一个灵活和可扩展的基础设施,用于创建和管理复杂的Agent环境。Gaia2包含多个场景,每个场景都模拟了一个特定的真实世界任务,例如购物、预订旅行或解决技术问题。每个场景都配有一个写操作验证器,用于评估Agent的动作是否正确和有效。整个框架是开源的,方便社区进行扩展和定制。
关键创新:Gaia2的关键创新在于其动态异步的环境设计,这与传统的静态或同步评估基准形成了鲜明对比。通过引入时间约束、噪声事件和多Agent协作,Gaia2能够更真实地模拟Agent在实际应用中面临的挑战。此外,Gaia2的写操作验证器提供了一种细粒度的、可验证的评估方法,使得可以利用强化学习从可验证的奖励中进行学习。
关键设计:Gaia2的关键设计包括:1) 动态异步环境:环境状态随时间独立变化,Agent需要在时间约束下做出决策。2) 噪声事件:引入随机事件干扰Agent的感知和推理。3) 多Agent协作:Agent需要与其他Agent进行通信和协作才能完成任务。4) 写操作验证器:对Agent的每个动作进行验证,确保其正确性和有效性。5) 基于ARE平台的开源实现:方便社区进行扩展和定制。
📊 实验亮点
实验结果表明,没有一个模型在所有能力上都表现出色。GPT-5在整体得分上领先(42% pass@1),但在时间敏感的任务上表现不佳。Claude-4 Sonnet在准确性和速度之间进行了权衡。Kimi-K2在开源模型中表现最佳(21% pass@1)。这些结果揭示了现有模型在推理、效率和鲁棒性之间的权衡,并指出了未来Agent技术的发展方向。
🎯 应用场景
Gaia2的研究成果可应用于开发更智能、更可靠的Agent系统,例如智能助手、自动化客服、机器人等。通过在Gaia2上进行训练和评估,可以提高Agent在复杂、动态环境中的适应性和鲁棒性,从而更好地服务于人类社会。此外,Gaia2的开源框架也为Agent研究人员提供了一个有力的工具,促进Agent技术的创新和发展。
📄 摘要(原文)
We introduce Gaia2, a benchmark for evaluating large language model agents in realistic, asynchronous environments. Unlike prior static or synchronous evaluations, Gaia2 introduces scenarios where environments evolve independently of agent actions, requiring agents to operate under temporal constraints, adapt to noisy and dynamic events, resolve ambiguity, and collaborate with other agents. Each scenario is paired with a write-action verifier, enabling fine-grained, action-level evaluation and making Gaia2 directly usable for reinforcement learning from verifiable rewards. Our evaluation of state-of-the-art proprietary and open-source models shows that no model dominates across capabilities: GPT-5 (high) reaches the strongest overall score of 42% pass@1 but fails on time-sensitive tasks, Claude-4 Sonnet trades accuracy and speed for cost, Kimi-K2 leads among open-source models with 21% pass@1. These results highlight fundamental trade-offs between reasoning, efficiency, robustness, and expose challenges in closing the "sim2real" gap. Gaia2 is built on a consumer environment with the open-source Agents Research Environments platform and designed to be easy to extend. By releasing Gaia2 alongside the foundational ARE framework, we aim to provide the community with a flexible infrastructure for developing, benchmarking, and training the next generation of practical agent systems.