Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
作者: Guanting Dong, Junting Lu, Junjie Huang, Wanjun Zhong, Longxiang Liu, Shijue Huang, Zhenyu Li, Yang Zhao, Xiaoshuai Song, Xiaoxi Li, Jiajie Jin, Yutao Zhu, Hanbin Wang, Fangyu Lei, Qinyu Luo, Mingyang Chen, Zehui Chen, Jiazhan Feng, Ji-Rong Wen, Zhicheng Dou
分类: cs.AI, cs.CL
发布日期: 2026-04-20
备注: Working in progress
💡 一句话要点
Agent-World:通过可扩展环境合成提升通用智能体能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 通用智能体 强化学习 环境合成 自我进化 多环境学习
📋 核心要点
- 现有智能体训练缺乏真实环境和有效的终身学习机制,限制了其通用智能的发展。
- Agent-World通过自主探索真实世界环境和任务,并进行持续自我进化训练,来提升智能体的通用能力。
- 实验表明,Agent-World在多个基准测试中超越了现有模型,并揭示了环境多样性和自我进化对性能的影响。
📝 摘要(中文)
大型语言模型越来越多地被期望作为通用智能体,与外部、有状态的工具环境进行交互。模型上下文协议(MCP)和更广泛的智能体技能为连接智能体与可扩展的真实世界服务提供了一个统一的接口,但训练鲁棒的智能体仍然受到缺乏真实环境和终身学习的原则性机制的限制。本文提出了Agent-World,一个自我进化的训练平台,通过可扩展的环境来提升通用智能体智能。Agent-World包含两个主要组成部分:(1)智能体环境-任务发现,它自主地探索主题对齐的数据库和来自数千个真实世界环境主题的可执行工具生态系统,并合成具有可控难度的可验证任务;(2)持续自我进化的智能体训练,它将多环境强化学习与自我进化的智能体竞技场相结合,该竞技场通过动态任务合成自动识别能力差距,并驱动有针对性的学习,从而实现智能体策略和环境的协同进化。在23个具有挑战性的智能体基准测试中,Agent-World-8B和14B始终优于强大的专有模型和环境扩展基线。进一步的分析揭示了与环境多样性和自我进化轮次相关的扩展趋势,为构建通用智能体智能提供了见解。
🔬 方法详解
问题定义:现有智能体训练方法面临的主要问题是缺乏足够真实和多样化的训练环境,以及有效的终身学习机制。这导致智能体在面对真实世界复杂场景时,泛化能力不足,难以适应新的任务和环境。现有方法通常依赖于人工设计的环境,难以覆盖真实世界的多样性,并且缺乏自动发现和利用新环境的能力。
核心思路:Agent-World的核心思路是构建一个能够自我进化的训练平台,通过自主探索真实世界环境和任务,并进行持续的自我进化训练,来提升智能体的通用能力。该平台能够自动发现新的环境和任务,并根据智能体的能力差距,动态调整训练目标,从而实现智能体策略和环境的协同进化。
技术框架:Agent-World包含两个主要模块:(1) 智能体环境-任务发现模块,负责自主探索真实世界环境和任务,并生成可验证的训练任务;(2) 持续自我进化的智能体训练模块,负责利用多环境强化学习和自我进化的智能体竞技场,进行持续的智能体训练。智能体环境-任务发现模块通过探索主题对齐的数据库和可执行工具生态系统,发现新的环境和任务。持续自我进化的智能体训练模块则通过动态任务合成,自动识别智能体的能力差距,并驱动有针对性的学习。
关键创新:Agent-World的关键创新在于其自我进化的训练机制。该机制能够自动发现新的环境和任务,并根据智能体的能力差距,动态调整训练目标,从而实现智能体策略和环境的协同进化。这种自我进化的训练机制能够有效地提升智能体的泛化能力和适应性,使其能够更好地应对真实世界的复杂场景。
关键设计:Agent-World的关键设计包括:(1) 智能体环境-任务发现模块中的任务难度控制机制,该机制能够生成具有可控难度的训练任务,从而实现由易到难的渐进式学习;(2) 持续自我进化的智能体训练模块中的动态任务合成机制,该机制能够根据智能体的能力差距,自动合成具有挑战性的训练任务,从而驱动智能体的持续学习;(3) 多环境强化学习算法,该算法能够有效地利用多个环境的信息,提升智能体的泛化能力。
🖼️ 关键图片
📊 实验亮点
Agent-World-8B和14B在23个具有挑战性的智能体基准测试中,始终优于强大的专有模型和环境扩展基线。实验结果还表明,环境多样性和自我进化轮次对智能体的性能有显著影响,揭示了构建通用智能体智能的关键因素。例如,在特定任务上,Agent-World模型相比于基线模型取得了显著的性能提升(具体数值未知)。
🎯 应用场景
Agent-World的研究成果可应用于各种需要通用智能体的领域,例如智能客服、自动化办公、机器人控制等。通过提供更真实、多样化的训练环境,Agent-World能够帮助训练出更鲁棒、更智能的智能体,从而提升这些应用场景的效率和效果。未来,Agent-World有望成为通用智能体研究的重要基础设施。
📄 摘要(原文)
Large language models are increasingly expected to serve as general-purpose agents that interact with external, stateful tool environments. The Model Context Protocol (MCP) and broader agent skills offer a unified interface for connecting agents with scalable real-world services, but training robust agents remains limited by the lack of realistic environments and principled mechanisms for life-long learning. In this paper, we present \textbf{Agent-World}, a self-evolving training arena for advancing general agent intelligence through scalable environments. Agent-World has two main components: (1) Agentic Environment-Task Discovery, which autonomously explores topic-aligned databases and executable tool ecosystems from thousands of real-world environment themes and synthesizes verifiable tasks with controllable difficulty; and (2) Continuous Self-Evolving Agent Training, which combines multi-environment reinforcement learning with a self-evolving agent arena that automatically identifies capability gaps through dynamic task synthesis and drives targeted learning, enabling the co-evolution of agent policies and environments. Across 23 challenging agent benchmarks, Agent-World-8B and 14B consistently outperforms strong proprietary models and environment scaling baselines. Further analyses reveal scaling trends in relation to environment diversity and self-evolution rounds, offering insights for building general agent intelligence.