AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs

作者: Haizhong Zheng, Yizhuo Di, Jiahui Wang, Shuowei Jin, Xueshen Liu, Yongji Wu, Z. Morley Mao, Ion Stoica, Jiawei Zhao, Beidi Chen

分类: cs.LG, cs.AI

发布日期: 2026-05-15

💡 一句话要点

AstraFlow：面向Agentic LLM的数据流强化学习系统

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 Agentic LLM 数据流 分布式系统

📋 核心要点

现有Agentic LLM的强化学习成本高昂，且难以支持复杂的多策略协同训练和异构资源利用。
AstraFlow采用数据流架构，将rollout、数据管理和训练解耦为自治组件，实现灵活的资源调度和算法组合。
实验表明，AstraFlow在多种任务上支持多策略训练和异构资源利用，并在多策略协同训练中加速2.7倍。

📝 摘要（中文）

强化学习越来越多地被用于提升大型语言模型（LLM）的推理、编码和工具使用能力，但Agentic RL的成本仍然过高。将RL扩展到Agentic LLM需要支持复杂的工作负载，包括多策略协同训练，同时高效利用弹性、异构和跨区域的计算资源。现有的LLM RL系统支持部分这些能力，但每个新的扩展通常需要专门的系统工程。这种负担源于以训练器为中心的控制架构以及RL系统组件缺乏原则性的抽象。为了解决这些限制，我们提出了AstraFlow，一个面向数据流的RL系统，它用原则性的组件抽象取代了传统的以训练器为中心的控制。在AstraFlow中，rollout服务、数据流管理和训练被解耦为自治组件，使系统能够原生支持复杂的多策略Agentic RL工作负载，并高效地利用不同的计算资源。我们在数学、代码、搜索和AgentBench工作负载上评估了AstraFlow，表明相同的系统支持多策略训练、弹性伸缩、异构跨区域执行和可组合的数据算法，而无需系统级代码更改。在多策略协同训练中，AstraFlow实现了与现有RL系统相当或更好的准确性，同时将训练时间加速了2.7倍。

🔬 方法详解

问题定义：现有Agentic LLM的强化学习系统存在扩展性问题，难以支持复杂的多策略协同训练，并且难以高效利用弹性、异构和跨区域的计算资源。以训练器为中心的控制架构和缺乏原则性的组件抽象是主要瓶颈。

核心思路：AstraFlow的核心思路是将强化学习流程解耦为多个自治组件，包括rollout服务、数据流管理和训练。通过数据流的方式连接这些组件，实现灵活的资源调度和算法组合，从而支持复杂的工作负载和异构资源利用。

技术框架：AstraFlow的整体架构包含以下主要模块：Rollout Service负责生成训练数据；Dataflow Management负责数据传输、存储和处理；Training Service负责模型训练。这些模块通过定义明确的接口进行通信，形成一个数据流图。系统可以根据资源情况动态调整各个模块的资源分配。

关键创新：AstraFlow的关键创新在于其面向数据流的架构，它将传统的以训练器为中心的控制方式转变为基于组件的自治管理。这种架构使得系统能够原生支持多策略训练、弹性伸缩、异构跨区域执行和可组合的数据算法，而无需修改系统级代码。

关键设计：AstraFlow的关键设计包括：1) 使用gRPC进行组件间的通信，保证高效和可靠的数据传输；2) 使用Ray作为底层分布式计算框架，实现弹性伸缩和资源管理；3) 提供可组合的数据算法接口，方便用户自定义数据处理流程；4) 采用模块化的设计，方便扩展新的组件和功能。

🖼️ 关键图片

📊 实验亮点

AstraFlow在数学、代码、搜索和AgentBench等多个任务上进行了评估。实验结果表明，AstraFlow在支持多策略训练、弹性伸缩和异构跨区域执行的同时，实现了与现有RL系统相当或更好的准确性。在多策略协同训练中，AstraFlow将训练时间加速了2.7倍，证明了其高效的资源利用能力。

🎯 应用场景

AstraFlow可应用于各种需要Agentic LLM的任务，例如机器人控制、游戏AI、对话系统和自动化工具使用。其高效的资源利用和灵活的算法组合能力，可以降低Agentic LLM的训练成本，加速其在实际场景中的应用。未来，AstraFlow可以进一步扩展到支持更复杂的强化学习算法和更广泛的计算资源。

📄 摘要（原文）

Reinforcement learning (RL) is increasingly used to improve the reasoning, coding, and tool-use capabilities of large language models, but agentic RL remains prohibitively expensive. Scaling RL to agentic LLMs requires supporting complex workloads, including multi-policy collaborative training, while efficiently using elastic, heterogeneous, and cross-region compute resources. Existing LLM RL systems support some of these capabilities, but each new extension often requires dedicated system engineering. This burden arises from trainer-centered control architectures and the lack of principled abstractions for RL system components. To address these limitations, we propose AstraFlow, a dataflow-oriented RL system that replaces conventional trainer-centered control with principled component abstractions. In AstraFlow, rollout services, dataflow management, and training are decoupled into autonomous components, enabling the system to natively support complex multi-policy agentic RL workloads and efficiently exploit diverse compute resources. We evaluate AstraFlow across math, code, search, and AgentBench workloads, showing that the same system supports multi-policy training, elastic scaling, heterogeneous cross-region execution, and composable data algorithms without system-level code changes. In multi-policy collaborative training, AstraFlow achieves comparable or better accuracy than existing RL systems while speeding up training time by 2.7x.

AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理