Relax: An Asynchronous Reinforcement Learning Engine for Omni-Modal Post-Training at Scale

📄 arXiv: 2604.11554v1 📥 PDF

作者: Liujie Zhang, Benzhe Ning, Rui Yang, Xiaoyan Yu, Jiaxing Li, Lumeng Wu, Jia Liu, Minghao Li, Weihang Chen, Weiqi Hu, Lei Zhang

分类: cs.CL

发布日期: 2026-04-13

备注: 17 pages, 22 figures

🔗 代码/项目: GITHUB


💡 一句话要点

Relax:用于大规模全模态后训练的异步强化学习引擎

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 多模态学习 异步训练 大规模训练 后训练 语言模型 智能体 开源引擎

📋 核心要点

  1. 现有RL训练系统难以有效处理全模态输入、大规模运行的鲁棒性以及陈旧性与吞吐量的权衡。
  2. Relax通过全模态原生架构、故障隔离的服务设计和TransferQueue数据总线实现异步训练,解决上述挑战。
  3. 实验表明,Relax在多种模型和模态上实现了显著的加速和稳定的收敛,并支持MoE模型。

📝 摘要(中文)

强化学习(RL)后训练已被证明能有效激发大型语言模型的推理、自我反思和工具使用能力。随着模型扩展到全模态输入和智能体多轮工作流,RL训练系统面临三个相互依赖的挑战:异构数据流、大规模运行的鲁棒性以及陈旧性与吞吐量的权衡。我们提出了Relax(Reinforcement Engine Leveraging Agentic X-modality),一个开源RL训练引擎,通过三个协同设计的架构层来应对这些挑战。首先,一个全模态原生架构将多模态支持构建到整个堆栈中——从数据预处理和模态感知并行到推理生成——而不是将其改造到以文本为中心的管道上。其次,每个RL角色都作为独立的、故障隔离的服务运行,可以扩展、恢复和升级,而无需全局协调。第三,服务级解耦通过TransferQueue数据总线实现异步训练,其中单个陈旧性参数在on-policy、near-on-policy和完全异步执行之间平滑插值。Relax在Qwen3-4B on-policy训练上实现了比veRL快1.20倍的端到端加速。其完全异步模式在Qwen3-4B上比colocate快1.76倍,在Qwen3-Omni-30B上快2.00倍,同时所有模式都收敛到相同的奖励水平。Relax支持R3 (Rollout Routing Replay),对于MoE模型只有1.9%的开销,而veRL在相同配置下有32%的性能下降。它进一步展示了Qwen3-Omni在图像、文本和音频上的稳定全模态RL收敛,在视频上持续超过2000步而没有性能下降。Relax可在https://github.com/rednote-ai/Relax 获取。

🔬 方法详解

问题定义:论文旨在解决大规模全模态强化学习后训练中,异构数据流、运行鲁棒性和陈旧性-吞吐量权衡这三个关键问题。现有方法通常是基于文本中心管道进行改造,难以有效支持多模态数据,且在大规模场景下容易出现故障,同步训练方式限制了吞吐量。

核心思路:Relax的核心思路是构建一个全模态原生、服务解耦且支持异步训练的强化学习引擎。通过将多模态支持集成到整个训练堆栈中,实现对异构数据的有效处理。服务解耦提高了系统的鲁棒性和可扩展性。异步训练则允许在陈旧性和吞吐量之间进行灵活的权衡。

技术框架:Relax的整体架构包含三个主要层:全模态原生架构、服务解耦架构和异步训练架构。全模态原生架构负责数据预处理、模态感知并行和推理生成。服务解耦架构将每个RL角色作为独立的服务运行,实现故障隔离和独立扩展。异步训练架构通过TransferQueue数据总线实现数据传输,并使用陈旧性参数控制训练的同步程度。

关键创新:Relax的关键创新在于其全栈式的多模态支持和异步训练机制。与现有方法不同,Relax不是简单地将多模态功能添加到现有的文本中心管道中,而是从底层架构上支持多模态数据。异步训练机制允许在保证收敛性的前提下,显著提高训练吞吐量。

关键设计:Relax的关键设计包括:1) 全模态数据预处理流程,支持图像、文本和音频等多种模态;2) 模态感知并行策略,根据不同模态的特点进行优化;3) TransferQueue数据总线,用于异步数据传输;4) 可调节的陈旧性参数,用于控制训练的同步程度。具体的损失函数和网络结构取决于具体的应用场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Relax在Qwen3-4B on-policy训练上实现了比veRL快1.20倍的端到端加速。其完全异步模式在Qwen3-4B上比colocate快1.76倍,在Qwen3-Omni-30B上快2.00倍,同时所有模式都收敛到相同的奖励水平。在MoE模型上,Relax支持R3,开销仅为1.9%,而veRL的性能下降32%。

🎯 应用场景

Relax可应用于各种需要大规模全模态强化学习后训练的场景,例如智能对话系统、多模态智能体、机器人控制等。该研究成果有助于提升模型的推理、自我反思和工具使用能力,并推动人工智能在更广泛领域的应用。未来,Relax有望成为构建通用人工智能的重要基础设施。

📄 摘要(原文)

Reinforcement learning (RL) post-training has proven effective at unlocking reasoning, self-reflection, and tool-use capabilities in large language models. As models extend to omni-modal inputs and agentic multi-turn workflows, RL training systems face three interdependent challenges: heterogeneous data flows, operational robustness at scale, and the staleness -- throughput tradeoff. We present \textbf{Relax} (Reinforcement Engine Leveraging Agentic X-modality), an open-source RL training engine that addresses these challenges through three co-designed architectural layers. First, an \emph{omni-native architecture} builds multimodal support into the full stack -- from data preprocessing and modality-aware parallelism to inference generation -- rather than retrofitting it onto a text-centric pipeline. Second, each RL role runs as an independent, fault-isolated service that can be scaled, recovered, and upgraded without global coordination. Third, service-level decoupling enables asynchronous training via the TransferQueue data bus, where a single staleness parameter smoothly interpolates among on-policy, near-on-policy, and fully asynchronous execution. Relax achieves a 1.20$\times$ end-to-end speedup over veRL on Qwen3-4B on-policy training. Its fully async mode delivers a 1.76$\times$ speedup over colocate on Qwen3-4B and a 2.00$\times$ speedup on Qwen3-Omni-30B, while all modes converge to the same reward level. Relax supports R3 (Rollout Routing Replay)~\cite{ma2025r3} for MoE models with only 1.9\% overhead, compared to 32\% degradation in veRL under the same configuration. It further demonstrates stable omni-modal RL convergence on Qwen3-Omni across image, text, and audio, sustaining over 2{,}000 steps on video without degradation. Relax is available at https://github.com/rednote-ai/Relax.