AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents
作者: Renxi Wang, Rifo Ahmad Genadi, Bilal El Bouardi, Yongxin Wang, Fajri Koto, Zhengzhong Liu, Timothy Baldwin, Haonan Li
分类: cs.AI
发布日期: 2025-07-20
💡 一句话要点
AgentFly:用于LM Agent的可扩展强化学习框架,提升智能体自主完成任务能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 语言模型Agent 自主任务完成 可扩展框架 异步执行 集中式资源管理 多轮交互 Agent-RL
📋 核心要点
- 现有LM Agent主要依赖prompt工程或监督微调,缺乏利用强化学习增强推理和事实性能力的系统研究。
- AgentFly框架通过集成强化学习算法,并提供易于扩展的工具和奖励函数接口,赋能LM Agent更强的自主任务完成能力。
- 该框架支持异步执行和集中式资源管理,实现高吞吐量训练,并通过多个任务的Agent训练验证了框架的有效性。
📝 摘要(中文)
语言模型(LM)Agent因其通过与环境、工具和API交互自主完成任务的能力而备受关注。LM Agent主要通过提示工程或监督微调构建。同时,强化学习(RL)已被探索用于增强LM的能力,例如推理和事实性。然而,LM Agent与强化学习的结合(Agent-RL)仍未被充分探索,并且缺乏系统的研究。为此,我们构建了AgentFly,一个可扩展的Agent-RL框架,旨在通过各种RL算法增强LM Agent的能力。我们的框架通过token级别的掩码来适应传统的RL方法,从而支持多轮交互。它具有基于装饰器的接口,用于定义工具和奖励函数,从而实现无缝扩展和易用性。为了支持高吞吐量训练,我们实现了工具调用的异步执行和奖励计算,并设计了一个用于可扩展环境协调的集中式资源管理系统。我们还提供了一套预构建的工具和环境,通过在多个任务中成功的Agent训练来证明该框架的有效性。
🔬 方法详解
问题定义:现有LM Agent主要依赖prompt工程或监督微调,在复杂任务中表现受限。强化学习虽然能提升LM的推理和事实性,但Agent-RL的结合缺乏系统研究,难以有效利用强化学习提升LM Agent的自主任务完成能力。现有方法在多轮交互、工具扩展和高吞吐量训练方面存在挑战。
核心思路:AgentFly的核心思路是将强化学习算法与LM Agent相结合,通过强化学习优化Agent的决策过程,使其能够更好地利用工具和环境信息完成任务。通过提供易于扩展的工具和奖励函数接口,简化Agent-RL的开发流程,并支持高吞吐量训练,加速Agent的优化过程。
技术框架:AgentFly框架包含以下主要模块:1) Agent模块,负责与环境交互并生成动作;2) 环境模块,模拟真实世界或提供预定义的环境;3) 工具模块,提供Agent可以使用的各种工具和API;4) 奖励模块,根据Agent的行为提供奖励信号;5) 强化学习模块,负责训练Agent的策略。框架采用装饰器模式简化工具和奖励函数的定义,并使用异步执行和集中式资源管理提高训练效率。
关键创新:AgentFly的关键创新在于:1) 提出了一个可扩展的Agent-RL框架,支持多种强化学习算法;2) 设计了基于装饰器的接口,简化了工具和奖励函数的定义;3) 实现了异步执行和集中式资源管理,提高了训练效率;4) 通过token级别的掩码来适应传统的RL方法,从而支持多轮交互。
关键设计:AgentFly的关键设计包括:1) 使用Transformer作为Agent的骨干网络;2) 采用Actor-Critic算法进行策略优化;3) 设计了针对多轮交互的奖励函数;4) 使用token级别的掩码来限制Agent的动作空间;5) 实现了基于Redis的集中式资源管理系统。
🖼️ 关键图片
📊 实验亮点
AgentFly框架在多个任务中进行了验证,包括文本生成、问答和游戏等。实验结果表明,使用AgentFly训练的Agent在任务完成率和奖励值方面均优于基线方法。例如,在文本生成任务中,AgentFly训练的Agent生成的文本质量更高,流畅性更好。在问答任务中,AgentFly训练的Agent能够更准确地回答问题。具体性能数据未知,但整体表现优于基线。
🎯 应用场景
AgentFly框架可应用于各种需要智能体自主完成任务的场景,例如智能客服、自动化运维、游戏AI等。通过强化学习优化Agent的决策能力,可以显著提高任务完成效率和质量。该框架的易扩展性使其能够快速适应新的任务和环境,具有广泛的应用前景。
📄 摘要(原文)
Language model (LM) agents have gained significant attention for their ability to autonomously complete tasks through interactions with environments, tools, and APIs. LM agents are primarily built with prompt engineering or supervised finetuning. At the same time, reinforcement learning (RL) has been explored to enhance LM's capabilities, such as reasoning and factuality. However, the combination of the LM agents and reinforcement learning (Agent-RL) remains underexplored and lacks systematic study. To this end, we built AgentFly, a scalable and extensible Agent-RL framework designed to empower LM agents with a variety of RL algorithms. Our framework supports multi-turn interactions by adapting traditional RL methods with token-level masking. It features a decorator-based interface for defining tools and reward functions, enabling seamless extension and ease of use. To support high-throughput training, we implement asynchronous execution of tool calls and reward computations, and design a centralized resource management system for scalable environment coordination. We also provide a suite of prebuilt tools and environments, demonstrating the framework's effectiveness through successful agent training across multiple tasks.