ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning

📄 arXiv: 2603.13019v1 📥 PDF

作者: Bangjun Xiao, Yihao Zhao, Xiangwei Deng, Shihua Yu, Yuxing Xiang, Huaqiu Liu, Qiying Wang, Liang Zhao, Hailin Zhang, Xuanzhe Liu, Xin Jin, Fuli Luo

分类: cs.DC, cs.AI, cs.LG

发布日期: 2026-03-13


💡 一句话要点

ARL-Tangram:通过细粒度资源管理提升Agentic强化学习的资源效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic强化学习 资源管理 弹性调度 动作级别编排 资源效率 云集群 异构资源

📋 核心要点

  1. Agentic RL需要大量外部资源,而现有框架采用静态过度配置,导致资源利用率低下。
  2. ARL-Tangram通过动作级别的编排,实现细粒度的资源共享和弹性调度,优化资源利用。
  3. 实验表明,ARL-Tangram显著降低了动作完成时间,加速了训练过程,并节省了大量外部资源。

📝 摘要(中文)

Agentic强化学习(RL)已成为云集群中一种变革性的工作负载,它使大型语言模型(LLM)能够通过与现实世界的交互来解决复杂问题。然而,与传统的RL不同,agentic RL需要大量的外部云资源,例如用于代码执行的CPU和用于奖励模型的GPU,这些资源存在于主要的训练集群之外。现有的agentic RL框架通常依赖于静态的过度配置,即资源通常与长期存在的轨迹绑定或被任务隔离,这导致严重的资源效率低下。我们提出了动作级别的编排,并将其纳入ARL-Tangram中,这是一个统一的资源管理系统,可以实现细粒度的外部资源共享和弹性。ARL-Tangram利用统一的动作级别公式和弹性调度算法,在满足异构资源约束的同时,最大限度地减少动作完成时间(ACT)。此外,定制异构资源管理器,以有效地支持具有异构特征和拓扑的资源上的动作级别执行。在真实世界的agentic RL任务上的评估表明,ARL-Tangram将平均ACT提高了高达4.3倍,将RL训练的步长持续时间加快了高达1.5倍,并节省了高达71.2%的外部资源。该系统已被部署以支持MiMo系列模型的训练。

🔬 方法详解

问题定义:Agentic RL训练过程中,代码执行和奖励模型评估等任务需要大量的外部计算资源(CPU/GPU)。现有方法通常采用静态资源分配,即为每个agent或任务预先分配固定资源,导致资源利用率低下,无法根据实际需求动态调整。因此,如何高效地管理和调度这些外部资源,成为提升Agentic RL训练效率的关键问题。

核心思路:ARL-Tangram的核心思路是引入动作级别的资源编排。将Agentic RL任务分解为更细粒度的动作,并根据每个动作的资源需求进行动态调度。通过这种细粒度的资源管理,可以实现资源的共享和弹性伸缩,从而提高整体资源利用率,并缩短训练时间。

技术框架:ARL-Tangram包含以下主要模块:1) 统一的动作级别公式:将不同的Agentic RL任务统一表示为动作序列,方便资源调度;2) 弹性调度算法:根据动作的资源需求和资源可用情况,动态分配资源,最小化动作完成时间(ACT);3) 异构资源管理器:针对不同类型的资源(CPU/GPU),进行优化管理,支持动作级别的执行。

关键创新:ARL-Tangram的关键创新在于动作级别的资源编排和弹性调度算法。与传统的静态资源分配方法相比,ARL-Tangram能够更精细地控制资源的使用,根据实际需求动态调整资源分配,从而显著提高资源利用率。

关键设计:ARL-Tangram的关键设计包括:1) 动作完成时间(ACT)作为优化目标,旨在最小化整体训练时间;2) 异构资源管理器的定制化设计,针对不同类型的资源进行优化,例如,针对GPU资源,可以采用更高效的内存管理策略;3) 弹性调度算法的设计,需要考虑资源竞争、任务优先级等因素,以保证整体性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ARL-Tangram在真实世界的Agentic RL任务中,平均动作完成时间(ACT)降低了高达4.3倍,RL训练的步长持续时间加快了高达1.5倍,并节省了高达71.2%的外部资源。这些数据表明,ARL-Tangram能够显著提升Agentic RL的资源效率和训练速度。

🎯 应用场景

ARL-Tangram可广泛应用于需要大量外部资源的Agentic RL训练场景,例如机器人控制、游戏AI、自动驾驶等。通过提高资源利用率和加速训练过程,可以降低训练成本,并加速相关技术的研发和部署。该系统已成功应用于MiMo系列模型的训练,未来有望推广到更多Agentic RL应用中。

📄 摘要(原文)

Agentic reinforcement learning (RL) has emerged as a transformative workload in cloud clusters, enabling large language models (LLMs) to solve complex problems through interactions with real world. However, unlike traditional RL, agentic RL demands substantial external cloud resources, e.g., CPUs for code execution and GPUs for reward models, that exist outside the primary training cluster. Existing agentic RL framework typically rely on static over-provisioning, i.e., resources are often tied to long-lived trajectories or isolated by tasks, which leads to severe resource inefficiency. We propose the action-level orchestration, and incorporate it into ARL-Tangram, a unified resource management system that enables fine-grained external resource sharing and elasticity. ARL-Tangram utilizes a unified action-level formulation and an elastic scheduling algorithm to minimize action completion time (ACT) while satisfying heterogeneous resource constraints. Further, heterogeneous resource managers are tailored to efficiently support the action-level execution on resources with heterogeneous characteristics and topologies. Evaluation on real-world agentic RL tasks demonstrates that ARL-Tangram improves average ACT by up to 4.3$\times$, speeds up the step duration of RL training by up to 1.5$\times$, and saves the external resources by up to 71.2$\%$. This system has been deployed to support the training of the MiMo series models.