Scaling Agentic Capabilities via Grounded Interaction Synthesis

📄 arXiv: 2606.02001v1 📥 PDF

作者: Wenhang Shi, Jinhao Dong, Yiren Chen, Zhe Zhao, Shuqing Bian, Wei Lu, Xiaoyong Du

分类: cs.CL

发布日期: 2026-06-01

🔗 代码/项目: GITHUB


💡 一句话要点

提出GAIS,通过具身交互合成扩展Agent能力,提升数据效率和模型性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 Agent交互 数据合成 环境构建 任务规划 大型语言模型 强化学习

📋 核心要点

  1. 现有Agent任务数据合成依赖LLM,易产生偏差,难以覆盖真实世界的多样性和复杂性。
  2. GAIS通过协议锚定环境和结构引导规划,实现多样化环境和复杂任务的自动生成。
  3. 实验表明,GAIS合成数据显著优于现有方法,提升模型性能并具有更高的数据效率。

📝 摘要(中文)

通用Agent智能依赖于与多样化真实世界工具交互以完成复杂任务的能力,而这种能力从根本上与交互数据的质量相关。为了绕过高昂的人工标注成本,现有范式完全依赖于大型语言模型(LLM)来扩展Agent环境和任务的合成。然而,这种不受约束的生成通常会退化为LLM内部先验的偏差随机抽样,无法捕捉真实世界领域的多样性和难度,也无法构建高保真、长时程的任务。本文提出了Grounded Agentic Interaction Synthesis (GAIS),一个通过两阶段 grounding 机制自动扩展构建多样化环境和复杂任务的框架。具体来说,我们构建了源自真实世界模型上下文协议(MCP)服务器的协议锚定环境,以确保功能多样性和难度。随后,我们采用结构引导的规划来导航这些环境,主动执行逻辑依赖关系和对抗策略来生成复杂任务。在BFCL、$τ^2$-Bench和ACEBench上的实验表明,GAIS合成的数据显著优于最先进的基线,使基础模型能够匹配甚至超过其官方指令微调的对应模型。此外,GAIS表现出卓越的数据效率和可扩展性,以显著更少的数据实现卓越的能力,同时保持基线停滞时的持续增长。我们的代码和数据集已公开发布。

🔬 方法详解

问题定义:现有Agent任务数据合成方法主要依赖于大型语言模型(LLM)的生成能力,但这种方法存在固有的局限性。LLM的生成过程容易受到其内部先验知识的影响,导致生成的数据缺乏多样性和真实性,难以覆盖真实世界环境的复杂性和难度。此外,完全依赖LLM生成长时程任务也面临挑战,容易产生逻辑不一致和任务目标不明确的问题。

核心思路:GAIS的核心思路是通过两阶段的 grounding 机制,将Agent任务数据的生成过程与真实世界环境和任务结构相结合,从而克服现有方法的局限性。第一阶段,通过协议锚定环境,确保环境的功能多样性和难度。第二阶段,通过结构引导规划,主动执行逻辑依赖关系和对抗策略,生成复杂任务。

技术框架:GAIS框架包含两个主要阶段:1) 协议锚定环境构建:利用真实世界模型上下文协议(MCP)服务器,构建具有功能多样性和难度的环境。MCP服务器提供了一系列预定义的协议和接口,用于描述不同环境的交互方式和状态转换。2) 结构引导任务规划:在构建的环境中,采用结构引导的规划方法,生成复杂任务。该方法通过主动执行逻辑依赖关系和对抗策略,确保任务的合理性和挑战性。

关键创新:GAIS的关键创新在于其两阶段的 grounding 机制,将Agent任务数据的生成过程与真实世界环境和任务结构相结合。与现有方法相比,GAIS能够生成更具多样性、真实性和复杂性的Agent任务数据,从而提升Agent模型的泛化能力和鲁棒性。

关键设计:在协议锚定环境构建阶段,GAIS利用MCP服务器提供的协议和接口,构建了具有不同功能和交互方式的环境。在结构引导任务规划阶段,GAIS采用了基于逻辑依赖关系和对抗策略的规划算法,确保任务的合理性和挑战性。具体的参数设置和损失函数取决于具体的环境和任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用GAIS合成的数据训练的Agent模型在BFCL、$τ^2$-Bench和ACEBench等基准测试中,显著优于使用现有方法合成的数据训练的模型。GAIS合成的数据甚至能够使基础模型达到或超过其官方指令微调模型的性能。此外,GAIS还表现出更高的数据效率和可扩展性,能够以更少的数据实现更好的性能。

🎯 应用场景

GAIS可应用于各种Agent智能领域,例如机器人控制、游戏AI、智能助手等。通过自动生成高质量的训练数据,GAIS可以显著降低Agent模型的开发成本,并提升其在真实世界环境中的性能和鲁棒性。该研究对于推动通用Agent智能的发展具有重要意义。

📄 摘要(原文)

General agentic intelligence hinges on the ability to interact with diverse real-world tools to complete complex tasks, a capability fundamentally tied to the quality of interaction data. To bypass the prohibitive costs of human annotation, prevailing paradigms depend entirely on Large Language Models (LLMs) to scale the synthesis of agentic environments and tasks. However, such unconstrained generation often degenerates into biased random sampling of LLMs' internal priors, failing to capture the diversity and difficulty of real-world domains or construct high-fidelity, long-horizon tasks. In this work, we introduce Grounded Agentic Interaction Synthesis (GAIS), a framework that automates the scalable construction of diverse environments and complex tasks via a two-phase grounding mechanism. Specifically, we construct protocol-anchored environments derived from real-world Model Context Protocol (MCP) servers to ensure functional diversity and difficulty. Subsequently, we employ structure-guided planning to navigate these environments, actively enforcing logical dependencies and adversarial policies to generate complex tasks. Experiments on BFCL, $τ^2$-Bench, and ACEBench demonstrate that GAIS-synthesized data significantly outperforms state-of-the-art baselines, enabling base models to match or even surpass their official instruction-tuned counterparts. Furthermore, GAIS exhibits superior data efficiency and scalability, achieving exceptional capabilities with significantly less data while maintaining continuous growth where baselines stagnate. Our code and dataset are publicly available at https://github.com/Eric8932/GAIS.