AstraFlow: Dataflow-Oriented Reinforcement Learning for Agentic LLMs

📄 arXiv: 2605.15565v1 📥 PDF

作者: Haizhong Zheng, Yizhuo Di, Jiahui Wang, Shuowei Jin, Xueshen Liu, Yongji Wu, Z. Morley Mao, Ion Stoica, Jiawei Zhao, Beidi Chen

分类: cs.LG, cs.AI

发布日期: 2026-05-15


💡 一句话要点

AstraFlow:面向Agentic LLM的数据流强化学习系统

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 Agentic LLM 数据流 分布式系统

📋 核心要点

  1. 现有Agentic LLM的强化学习成本高昂,且难以支持复杂的多策略协同训练和异构资源利用。
  2. AstraFlow采用数据流架构,将rollout、数据管理和训练解耦为自治组件,实现灵活的资源调度和算法组合。
  3. 实验表明,AstraFlow在多种任务上支持多策略训练和异构资源利用,并在多策略协同训练中加速2.7倍。

📝 摘要(中文)

强化学习越来越多地被用于提升大型语言模型(LLM)的推理、编码和工具使用能力,但Agentic RL的成本仍然过高。将RL扩展到Agentic LLM需要支持复杂的工作负载,包括多策略协同训练,同时高效利用弹性、异构和跨区域的计算资源。现有的LLM RL系统支持部分这些能力,但每个新的扩展通常需要专门的系统工程。这种负担源于以训练器为中心的控制架构以及RL系统组件缺乏原则性的抽象。为了解决这些限制,我们提出了AstraFlow,一个面向数据流的RL系统,它用原则性的组件抽象取代了传统的以训练器为中心的控制。在AstraFlow中,rollout服务、数据流管理和训练被解耦为自治组件,使系统能够原生支持复杂的多策略Agentic RL工作负载,并高效地利用不同的计算资源。我们在数学、代码、搜索和AgentBench工作负载上评估了AstraFlow,表明相同的系统支持多策略训练、弹性伸缩、异构跨区域执行和可组合的数据算法,而无需系统级代码更改。在多策略协同训练中,AstraFlow实现了与现有RL系统相当或更好的准确性,同时将训练时间加速了2.7倍。

🔬 方法详解

问题定义:现有Agentic LLM的强化学习系统存在扩展性问题,难以支持复杂的多策略协同训练,并且难以高效利用弹性、异构和跨区域的计算资源。以训练器为中心的控制架构和缺乏原则性的组件抽象是主要瓶颈。

核心思路:AstraFlow的核心思路是将强化学习流程解耦为多个自治组件,包括rollout服务、数据流管理和训练。通过数据流的方式连接这些组件,实现灵活的资源调度和算法组合,从而支持复杂的工作负载和异构资源利用。

技术框架:AstraFlow的整体架构包含以下主要模块:Rollout Service负责生成训练数据;Dataflow Management负责数据传输、存储和处理;Training Service负责模型训练。这些模块通过定义明确的接口进行通信,形成一个数据流图。系统可以根据资源情况动态调整各个模块的资源分配。

关键创新:AstraFlow的关键创新在于其面向数据流的架构,它将传统的以训练器为中心的控制方式转变为基于组件的自治管理。这种架构使得系统能够原生支持多策略训练、弹性伸缩、异构跨区域执行和可组合的数据算法,而无需修改系统级代码。

关键设计:AstraFlow的关键设计包括:1) 使用gRPC进行组件间的通信,保证高效和可靠的数据传输;2) 使用Ray作为底层分布式计算框架,实现弹性伸缩和资源管理;3) 提供可组合的数据算法接口,方便用户自定义数据处理流程;4) 采用模块化的设计,方便扩展新的组件和功能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AstraFlow在数学、代码、搜索和AgentBench等多个任务上进行了评估。实验结果表明,AstraFlow在支持多策略训练、弹性伸缩和异构跨区域执行的同时,实现了与现有RL系统相当或更好的准确性。在多策略协同训练中,AstraFlow将训练时间加速了2.7倍,证明了其高效的资源利用能力。

🎯 应用场景

AstraFlow可应用于各种需要Agentic LLM的任务,例如机器人控制、游戏AI、对话系统和自动化工具使用。其高效的资源利用和灵活的算法组合能力,可以降低Agentic LLM的训练成本,加速其在实际场景中的应用。未来,AstraFlow可以进一步扩展到支持更复杂的强化学习算法和更广泛的计算资源。

📄 摘要(原文)

Reinforcement learning (RL) is increasingly used to improve the reasoning, coding, and tool-use capabilities of large language models, but agentic RL remains prohibitively expensive. Scaling RL to agentic LLMs requires supporting complex workloads, including multi-policy collaborative training, while efficiently using elastic, heterogeneous, and cross-region compute resources. Existing LLM RL systems support some of these capabilities, but each new extension often requires dedicated system engineering. This burden arises from trainer-centered control architectures and the lack of principled abstractions for RL system components. To address these limitations, we propose AstraFlow, a dataflow-oriented RL system that replaces conventional trainer-centered control with principled component abstractions. In AstraFlow, rollout services, dataflow management, and training are decoupled into autonomous components, enabling the system to natively support complex multi-policy agentic RL workloads and efficiently exploit diverse compute resources. We evaluate AstraFlow across math, code, search, and AgentBench workloads, showing that the same system supports multi-policy training, elastic scaling, heterogeneous cross-region execution, and composable data algorithms without system-level code changes. In multi-policy collaborative training, AstraFlow achieves comparable or better accuracy than existing RL systems while speeding up training time by 2.7x.