Terminal-World: Scaling Terminal-Agent Environments via Agent Skills

📄 arXiv: 2605.20876v1 📥 PDF

作者: Zihao Cheng, Hongru Wang, Zeming Liu, Xinyi Wang, Xiangrong Zhu, Yuhang Guo, Wei Lin, Jeff Z. Pan, Yunhong Wang

分类: cs.CL, cs.AI

发布日期: 2026-05-20

备注: Work in Progress


💡 一句话要点

Terminal-World:通过Agent技能扩展终端Agent环境,提升任务执行能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 终端Agent 技能合成 自动化训练数据生成 命令行环境 大型语言模型

📋 核心要点

  1. 现有终端Agent训练数据不足,导致任务泛化能力受限,且环境与任务语义对齐存在问题。
  2. Terminal-World以Agent技能为核心,自动化生成任务、环境和教师轨迹,实现协同合成。
  3. 实验表明,Terminal-World系列模型在多个基准测试中超越现有基线,且数据效率显著提升。

📝 摘要(中文)

终端Agent通过扩展大型语言模型,使其具备在命令行环境中直接执行任务的能力。然而,高质量训练数据的稀缺性限制了其发展。现有方法通常从人工定义的种子或GitHub仓库等部分资源引导,导致任务分布狭窄、环境与任务语义不符以及探索效率低下。为了解决这些问题,我们提出了Terminal-World,一个全自动化的流程,它以Agent技能为核心合成单元,联合编码任务目标、应用时机(前提条件和环境状态)以及执行方式,从而协同生成任务指令、环境和教师轨迹。为了进一步扩展合成空间,Terminal-World将技能组合成技能团队和技能图,用于多角色和跨领域任务合成。通过该流程,我们构建了5723个训练环境,并训练了Terminal-World-8B/14B/32B模型。在6个基准测试中,Terminal-World系列模型始终优于终端Agent基线。值得注意的是,使用相同的教师模型和仅1.2%的训练数据,Terminal-World-32B在Terminal-Bench 2.0上超越了Nemotron-Terminal-32B,Pass@1提升了+4.5 (31.5),Pass@3达到了43.8。

🔬 方法详解

问题定义:现有终端Agent训练面临高质量数据稀缺的问题,导致模型泛化能力不足。现有方法依赖人工种子或GitHub数据,导致任务分布过于集中,环境与任务语义不匹配,并且由于缺乏有效引导,探索效率低下。这些问题限制了终端Agent在复杂环境中的应用。

核心思路:Terminal-World的核心思路是将Agent技能作为任务合成的基本单元。每个技能都包含了任务目标、执行条件和具体执行步骤。通过组合这些技能,可以自动生成多样化的任务、环境和教师轨迹,从而解决数据稀缺和环境对齐问题。这种方法能够更有效地利用数据,并提高模型的泛化能力。

技术框架:Terminal-World包含一个全自动化的流程,主要包括以下几个阶段:1) 技能定义:定义Agent可以执行的基本技能,包括任务目标、前提条件和执行步骤。2) 环境生成:基于技能生成与任务语义对齐的命令行环境。3) 轨迹生成:通过执行技能,生成教师轨迹,用于训练Agent。4) 技能组合:将技能组合成技能团队和技能图,用于生成更复杂的任务。整个流程实现了任务、环境和轨迹的协同生成。

关键创新:Terminal-World最重要的创新在于以Agent技能为中心的任务合成方法。与现有方法不同,Terminal-World不是从部分数据引导,而是通过技能的组合和扩展,实现任务、环境和轨迹的联合生成。这种方法能够更有效地利用数据,并生成更符合任务语义的环境。此外,技能团队和技能图的引入,进一步扩展了任务合成的空间。

关键设计:Terminal-World的关键设计包括:1) 技能的表示方式:技能需要清晰地定义任务目标、前提条件和执行步骤,以便Agent能够正确地执行。2) 技能组合策略:需要设计有效的技能组合策略,以生成多样化的任务。3) 环境生成方法:需要设计能够生成与任务语义对齐的环境的方法。4) 教师轨迹生成方法:需要设计能够生成高质量教师轨迹的方法,以便Agent能够有效地学习。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细描述,属于未知信息。

📊 实验亮点

Terminal-World-32B在Terminal-Bench 2.0上超越了Nemotron-Terminal-32B,Pass@1提升了+4.5 (31.5),Pass@3达到了43.8。更重要的是,Terminal-World-32B仅使用了Nemotron-Terminal-32B 1.2%的训练数据,这表明Terminal-World在数据效率方面具有显著优势。实验结果表明,Terminal-World能够有效地解决终端Agent训练数据稀缺的问题。

🎯 应用场景

Terminal-World的研究成果可应用于自动化运维、智能助手、软件测试等领域。通过自动生成训练数据,可以降低终端Agent的开发成本,并提高其在复杂环境中的任务执行能力。该技术有望推动终端Agent在实际场景中的广泛应用,并提升人机交互的效率和智能化水平。

📄 摘要(原文)

Terminal agents extend Large Language Models with the ability to execute tasks directly in command-line environments, but their progress is bottlenecked by the scarcity of high-quality training data. Existing approaches bootstrap from partial sources such as human-defined seeds or GitHub repositories to instantiate one component and then complete the rest, producing tasks confined to narrow seed distributions, environments misaligned with task semantics, and inefficient trajectories from unguided exploration. To address these limitations, we introduce Terminal-World, a fully automated pipeline that uses agent skills as the central synthesis primitive, which jointly encode what to accomplish, when to apply (preconditions and environment state), and how to execute, enabling task instructions, environments, and teacher trajectories to be co-derived. To further broaden the synthesis space, Terminal-World composes skills into skill teams and skill graphs for multi-role and cross-domain task synthesis. Using this pipeline, we construct 5,723 training environments and train Terminal-World-8B/14B/32B, evaluated across 6 benchmarks where the Terminal-World series consistently outperforms terminal-agent baselines. Notably, using the same teacher model and only 1.2% of the training data, Terminal-World-32B surpasses Nemotron-Terminal-32B on Terminal-Bench 2.0 by +4.5 Pass@1 (31.5) and achieves 43.8 Pass@3.