EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis
作者: Xiaoshuai Song, Haofei Chang, Guanting Dong, Yutao Zhu, Zhicheng Dou, Ji-Rong Wen
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-01-09
备注: Working in progress
🔗 代码/项目: GITHUB
💡 一句话要点
EnvScaler:通过程序化合成扩展LLM Agent工具交互环境
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 工具交互 环境合成 程序化生成 强化学习 监督微调 环境扩展
📋 核心要点
- 现有LLM Agent训练依赖真实或模拟环境,但真实环境受限,LLM模拟易出错,手动构建难扩展。
- EnvScaler通过程序化合成自动构建可扩展的工具交互环境,包含环境骨架构建和场景生成两部分。
- 实验表明,使用EnvScaler合成的环境进行训练,能显著提升LLM在复杂工具交互任务中的性能。
📝 摘要(中文)
大型语言模型(LLMs)有望被训练成在各种真实环境中充当智能体,但这依赖于丰富多样的工具交互沙箱。然而,对真实系统的访问通常受到限制;LLM模拟的环境容易产生幻觉和不一致;手动构建的沙箱难以扩展。本文提出了EnvScaler,一个通过程序化合成实现可扩展工具交互环境的自动化框架。EnvScaler包含两个组件。首先,SkelBuilder通过主题挖掘、逻辑建模和质量评估构建多样化的环境骨架。然后,ScenGenerator为每个环境生成多个任务场景和基于规则的轨迹验证函数。借助EnvScaler,我们合成了191个环境和约7K个场景,并将它们应用于Qwen3系列模型的监督微调(SFT)和强化学习(RL)。在三个基准测试上的结果表明,EnvScaler显著提高了LLMs在涉及多轮、多工具交互的复杂环境中解决任务的能力。我们已在https://github.com/RUC-NLPIR/EnvScaler发布了我们的代码和数据。
🔬 方法详解
问题定义:现有的LLM Agent训练方法面临环境构建的瓶颈。真实环境访问受限,LLM直接模拟环境容易产生幻觉和不一致,而手动构建环境则难以扩展,无法满足LLM对多样化和大规模训练数据的需求。因此,如何高效、自动地构建可扩展的工具交互环境是亟待解决的问题。
核心思路:EnvScaler的核心思路是通过程序化合成的方式,自动生成多样化的工具交互环境。它将环境构建过程分解为环境骨架构建和场景生成两个阶段,利用主题挖掘、逻辑建模等技术,从少量种子知识中扩展出大量的环境和任务场景,从而实现环境的可扩展性。
技术框架:EnvScaler包含两个主要组件:SkelBuilder和ScenGenerator。SkelBuilder负责构建环境骨架,它首先通过主题挖掘从现有知识库中提取环境主题,然后利用逻辑建模技术构建环境的逻辑结构,最后通过质量评估筛选出高质量的环境骨架。ScenGenerator负责生成任务场景,它为每个环境骨架生成多个任务场景,并为每个场景生成基于规则的轨迹验证函数,用于评估LLM Agent的交互轨迹是否合理。
关键创新:EnvScaler的关键创新在于它提出了一种程序化合成的方法来自动构建工具交互环境。与传统的环境构建方法相比,EnvScaler能够高效、自动地生成大量多样化的环境和任务场景,从而解决了环境构建的瓶颈问题。此外,EnvScaler还引入了基于规则的轨迹验证函数,用于评估LLM Agent的交互轨迹,从而提高了训练数据的质量。
关键设计:SkelBuilder中,主题挖掘利用TF-IDF等技术提取关键词,逻辑建模使用预定义的模板和规则生成环境的逻辑结构。ScenGenerator中,任务场景的生成依赖于预定义的任务模板和随机参数,轨迹验证函数则基于专家知识和规则进行设计。质量评估模块使用启发式规则和人工评估相结合的方式,筛选出高质量的环境骨架。
📊 实验亮点
实验结果表明,使用EnvScaler合成的环境进行训练,能够显著提升Qwen3系列模型在三个基准测试上的性能。具体而言,在涉及多轮、多工具交互的复杂环境中,LLM的解决任务能力得到了显著提升。例如,在某个基准测试上,模型的成功率提升了超过20%。
🎯 应用场景
EnvScaler可以应用于各种需要LLM Agent进行工具交互的领域,例如智能家居、自动化办公、机器人控制等。通过EnvScaler,可以快速构建大量的训练环境,提升LLM Agent在复杂环境中的适应性和泛化能力,加速LLM Agent在实际场景中的落地应用。
📄 摘要(原文)
Large language models (LLMs) are expected to be trained to act as agents in various real-world environments, but this process relies on rich and varied tool-interaction sandboxes. However, access to real systems is often restricted; LLM-simulated environments are prone to hallucinations and inconsistencies; and manually built sandboxes are hard to scale. In this paper, we propose EnvScaler, an automated framework for scalable tool-interaction environments via programmatic synthesis. EnvScaler comprises two components. First, SkelBuilder constructs diverse environment skeletons through topic mining, logic modeling, and quality evaluation. Then, ScenGenerator generates multiple task scenarios and rule-based trajectory validation functions for each environment. With EnvScaler, we synthesize 191 environments and about 7K scenarios, and apply them to Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) for Qwen3 series models. Results on three benchmarks show that EnvScaler significantly improves LLMs' ability to solve tasks in complex environments involving multi-turn, multi-tool interactions. We release our code and data at https://github.com/RUC-NLPIR/EnvScaler.