Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization
作者: Yuchen Shi, Yuzheng Cai, Siqi Cai, Zihan Xu, Lichao Chen, Yulei Qin, Zhijian Zhou, Xiang Fei, Chaofan Qiu, Xiaoyu Tan, Gang Li, Zongyi Li, Haojia Lin, Guocan Cai, Yong Mao, Yunsheng Wu, Ke Li, Xing Sun
分类: cs.AI
发布日期: 2025-12-31
💡 一句话要点
Youtu-Agent:通过自动生成和混合策略优化提升Agent生产力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 自动生成 混合策略优化 强化学习 上下文学习 工具集成 提示工程 模块化设计
📋 核心要点
- 现有LLM Agent框架配置成本高昂,且难以适应动态环境,限制了其应用。
- Youtu-Agent通过模块化设计、自动生成和混合策略优化,实现Agent的自动构建和持续演进。
- 实验表明,Youtu-Agent在多个基准测试中取得了SOTA性能,并显著提升了工具合成成功率和Agent性能。
📝 摘要(中文)
现有的大语言模型(LLM)Agent框架面临两大挑战:高配置成本和静态能力。构建高质量的Agent通常需要在工具集成和提示工程方面投入大量人工,而部署的Agent难以适应动态环境,且微调成本高昂。为了解决这些问题,我们提出了Youtu-Agent,一个为LLM Agent的自动生成和持续演进而设计的模块化框架。Youtu-Agent具有结构化的配置系统,解耦了执行环境、工具包和上下文管理,从而实现灵活的重用和自动合成。我们引入了两种生成范式:用于标准任务的Workflow模式和用于复杂、非标准需求的Meta-Agent模式,能够自动生成工具代码、提示和配置。此外,Youtu-Agent建立了一个混合策略优化系统:(1)Agent Practice模块,使Agent能够通过上下文优化积累经验并提高性能,而无需参数更新;(2)Agent RL模块,与分布式训练框架集成,以端到端、大规模的方式实现任何Youtu-Agent的可扩展和稳定的强化学习。实验表明,Youtu-Agent使用开源模型在WebWalkerQA(71.47%)和GAIA(72.8%)上实现了最先进的性能。我们的自动生成管道实现了超过81%的工具合成成功率,而Practice模块将AIME 2024/2025的性能分别提高了+2.7%和+5.4%。此外,我们的Agent RL训练实现了40%的加速,并在7B LLM上实现了稳定的性能提升,在Maths和通用/多跳QA基准测试中,分别将编码/推理和搜索能力提高了高达35%和21%。
🔬 方法详解
问题定义:现有LLM Agent框架需要大量人工进行工具集成和提示工程,配置成本高;已部署的Agent难以适应动态环境,需要昂贵的微调。这些问题限制了LLM Agent的生产力和应用范围。
核心思路:Youtu-Agent的核心思路是通过自动化Agent的生成和持续演进,降低配置成本,提高适应性。具体来说,通过模块化设计实现灵活的重用和自动合成,并采用混合策略优化系统提升Agent的性能。
技术框架:Youtu-Agent包含以下主要模块:1) 结构化配置系统,解耦执行环境、工具包和上下文管理;2) 自动生成模块,包括Workflow模式和Meta-Agent模式,自动生成工具代码、提示和配置;3) 混合策略优化系统,包含Agent Practice模块(上下文优化)和Agent RL模块(强化学习)。
关键创新:Youtu-Agent的关键创新在于其自动生成和混合策略优化能力。自动生成模块能够显著降低人工配置成本,而混合策略优化系统则能够使Agent在动态环境中持续学习和提升性能。此外,模块化的设计也提高了Agent的灵活性和可重用性。
关键设计:Agent Practice模块通过上下文学习,使Agent在不更新参数的情况下积累经验并提高性能。Agent RL模块则与分布式训练框架集成,实现大规模强化学习。具体的技术细节,如损失函数、网络结构等,论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
Youtu-Agent在WebWalkerQA上达到71.47%,在GAIA上达到72.8%的SOTA性能(使用开源模型)。自动生成管道的工具合成成功率超过81%。Agent Practice模块使AIME 2024/2025的性能分别提高了+2.7%和+5.4%。Agent RL训练实现了40%的加速,并在Maths和通用/多跳QA基准测试中,分别将编码/推理和搜索能力提高了高达35%和21%。
🎯 应用场景
Youtu-Agent可应用于各种需要智能Agent辅助的场景,例如智能客服、自动化办公、智能搜索等。其自动生成和持续演进能力可以降低Agent的开发和维护成本,提高Agent的适应性和性能,从而提升工作效率和用户体验。未来,Youtu-Agent有望成为构建通用智能Agent的重要基础设施。
📄 摘要(原文)
Existing Large Language Model (LLM) agent frameworks face two significant challenges: high configuration costs and static capabilities. Building a high-quality agent often requires extensive manual effort in tool integration and prompt engineering, while deployed agents struggle to adapt to dynamic environments without expensive fine-tuning. To address these issues, we propose \textbf{Youtu-Agent}, a modular framework designed for the automated generation and continuous evolution of LLM agents. Youtu-Agent features a structured configuration system that decouples execution environments, toolkits, and context management, enabling flexible reuse and automated synthesis. We introduce two generation paradigms: a \textbf{Workflow} mode for standard tasks and a \textbf{Meta-Agent} mode for complex, non-standard requirements, capable of automatically generating tool code, prompts, and configurations. Furthermore, Youtu-Agent establishes a hybrid policy optimization system: (1) an \textbf{Agent Practice} module that enables agents to accumulate experience and improve performance through in-context optimization without parameter updates; and (2) an \textbf{Agent RL} module that integrates with distributed training frameworks to enable scalable and stable reinforcement learning of any Youtu-Agents in an end-to-end, large-scale manner. Experiments demonstrate that Youtu-Agent achieves state-of-the-art performance on WebWalkerQA (71.47\%) and GAIA (72.8\%) using open-weight models. Our automated generation pipeline achieves over 81\% tool synthesis success rate, while the Practice module improves performance on AIME 2024/2025 by +2.7\% and +5.4\% respectively. Moreover, our Agent RL training achieves 40\% speedup with steady performance improvement on 7B LLMs, enhancing coding/reasoning and searching capabilities respectively up to 35\% and 21\% on Maths and general/multi-hop QA benchmarks.