Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction
作者: Nex-AGI Team, :, Yuxuan Cai, Lu Chen, Qiaoling Chen, Yuyang Ding, Liwen Fan, Wenjie Fu, Yufei Gao, Honglin Guo, Pinxue Guo, Zhenhua Han, Zhengfu He, Hanglei Hu, Kai Hu, Shengjia Hua, Tianyu Huai, Baodai Huang, Li Ji, Zhen Jiang, Zhikai Lei, Bufan Li, Jiahang Lin, Lizhi Lin, Jinxiu Liu, Shichun Liu, Ziming Liu, Yuchen Ni, Pengfang Qian, Yujiong Shen, Qingyun Shi, Wentao Shu, Peng Sun, Yiran Suo, Tian Tang, Boyu Tian, Guoteng Wang, Junzhe Wang, Peixin Wang, Zhiheng Xi, Hang Yan, Jie Yang, Zhixiong Yang, Tianchu Yao, Guangze Ye, Qianxi Yu, Shuo Zhang, Xinyue Zhang, Yiqi Zhang, Jiarong Zhao, Miao Zheng, Rui Zheng, Enyu Zhou, Jiazheng Zhou, Maosen Zhou, Yuhao Zhou, Tao Gui, Yining Zheng, Xinchi Chen, Jie Zhou, Siyuan Feng, Qin Chen, Liang He, Qi Zhang, Xuanjing Huang, Xipeng Qiu
分类: cs.CL
发布日期: 2025-12-04
💡 一句话要点
Nex-N1:通过统一生态系统训练Agentic模型,用于大规模环境构建
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自主智能体 大规模环境构建 交互式学习 模拟-现实差距 智能体框架
📋 核心要点
- 现有大型语言模型向自主智能体转变受限于缺乏可扩展的基础设施,难以构建高质量的交互信号。
- 论文提出一种综合方法,通过NexAU、NexA4A和NexGAP三个模块,系统地扩展交互环境的复杂性、多样性和保真度。
- 实验结果表明,Nex-N1在SWE-bench和tau2等基准测试中优于SOTA开源模型,性能与前沿专有模型相当。
📝 摘要(中文)
大型语言模型(LLMs)正从被动响应者转变为自主智能体,这需要学习范式的根本转变——从静态模仿到激励驱动的决策。然而,缺乏可扩展的基础设施来构建高质量的交互信号,严重阻碍了这种转变,而这些交互信号对于有效的策略学习至关重要。为了解决这个问题,我们提出了一种综合方法,旨在系统地扩展交互环境的多样性和复杂性。我们的方法通过解决三个正交维度来实现这种扩展:(1)复杂性:NexAU,一个灵活的智能体框架,支持通过简单的配置构建复杂的智能体层级结构;(2)多样性:NexA4A,从自然语言自动生成多样化的智能体层级结构,以覆盖无限的领域;(3)保真度:NexGAP,通过集成动态的真实世界环境进行有根据的轨迹合成,从而弥合模拟-现实差距。我们基于由我们的基础设施建立的各种复杂交互环境训练了Nex-N1。在SWE-bench和tau2等基准测试上的经验结果表明,Nex-N1始终优于SOTA开源模型,并在复杂的智能体任务上实现了与前沿专有模型相媲美的性能。我们开源了Nex生态系统和模型权重,以促进进一步的研究。
🔬 方法详解
问题定义:现有的大型语言模型(LLMs)虽然在各种任务中表现出色,但它们主要作为被动响应者,缺乏自主决策能力。将LLM转变为自主智能体,需要从静态模仿学习转向激励驱动的决策。然而,构建大规模、高质量的交互环境,并从中获取有效的策略学习信号,仍然是一个巨大的挑战。缺乏可扩展的基础设施是阻碍这一转变的关键因素。
核心思路:论文的核心思路是通过构建一个统一的生态系统,系统性地扩展交互环境的复杂性、多样性和保真度,从而为训练自主智能体提供高质量的数据和信号。该生态系统包含三个关键组件:NexAU(用于构建复杂智能体层级结构)、NexA4A(用于自动生成多样化的智能体层级结构)和NexGAP(用于弥合模拟-现实差距)。
技术框架:整个框架包含三个主要模块: 1. NexAU (Agent Universe): 提供了一个灵活的智能体框架,允许通过简单的配置构建复杂的智能体层级结构。这使得可以创建具有不同角色和职责的智能体,从而增加环境的复杂性。 2. NexA4A (Agent for Anything): 自动从自然语言生成多样化的智能体层级结构,以覆盖无限的领域。这通过使用自然语言描述来创建新的智能体和环境,从而增加了环境的多样性。 3. NexGAP (Grounded Action Planner): 通过集成动态的真实世界环境进行有根据的轨迹合成,从而弥合模拟-现实差距。这使得智能体可以在更真实的环境中进行训练,从而提高其泛化能力。
关键创新:该论文的关键创新在于提出了一个统一的生态系统,能够系统性地解决构建大规模、高质量交互环境的三个核心挑战:复杂性、多样性和保真度。与以往的研究相比,该方法不仅关注单个智能体的训练,而且关注整个交互环境的构建,从而为训练更强大的自主智能体提供了更全面的解决方案。
关键设计: * NexAU: 具体配置方式未知,但强调了其灵活性和易用性,允许用户通过简单的配置构建复杂的智能体层级结构。 * NexA4A: 使用自然语言描述来生成智能体和环境,具体实现细节未知。 * NexGAP: 集成动态的真实世界环境进行轨迹合成,具体集成方法和轨迹合成策略未知。损失函数和网络结构等技术细节未在摘要中提及。
🖼️ 关键图片
📊 实验亮点
Nex-N1在SWE-bench和tau2等基准测试中表现出色,超越了现有的SOTA开源模型,并在复杂的智能体任务上取得了与前沿专有模型相媲美的性能。这表明该论文提出的方法在构建大规模交互环境和训练自主智能体方面具有显著优势。
🎯 应用场景
该研究成果可广泛应用于机器人、游戏、自动驾驶、智能家居等领域。通过构建更复杂、多样和真实的交互环境,可以训练出更智能、更自主的智能体,从而提高这些应用场景的效率和智能化水平。未来,该技术有望推动通用人工智能的发展。
📄 摘要(原文)
The evolution of Large Language Models (LLMs) from passive responders to autonomous agents necessitates a fundamental shift in learning paradigms -- from static imitation to incentive-driven decision making. However, this transition is significantly impeded by the lack of scalable infrastructure capable of constructing high-quality interaction signals for effective policy learning. To address this, we introduce a comprehensive method designed to systematically scale the diversity and complexity of interactive environments. Our method realizes this scaling by addressing three orthogonal dimensions: (1) Complexity: NexAU, a flexible agent framework that supports building complex agent hierarchies via simple configurations; (2) Diversity: NexA4A automatically generates diverse agent hierarchies from natural language to cover infinite domains; and (3) Fidelity: NexGAP bridges the simulation-reality gap by integrating dynamic real-world environment for grounded trajectories synthesis. We train Nex-N1 upon the diverse and complex interactive environments established by our infrastructure. Empirical results on benchmarks such as SWE-bench and tau2 demonstrate that Nex-N1 consistently outperforms SOTA open-source models and achieves competitive performance against frontier proprietary models on complex agentic tasks. We open-source the Nex ecosystem and model weights to facilitate further research.