Relax: An Asynchronous Reinforcement Learning Engine for Omni-Modal Post-Training at Scale

作者: Liujie Zhang, Benzhe Ning, Rui Yang, Xiaoyan Yu, Jiaxing Li, Lumeng Wu, Jia Liu, Minghao Li, Weihang Chen, Weiqi Hu, Lei Zhang

分类: cs.CL

发布日期: 2026-04-13

备注: 17 pages, 22 figures

🔗 代码/项目: GITHUB

💡 一句话要点

Relax：用于大规模全模态后训练的异步强化学习引擎

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 多模态学习 异步训练 大规模训练 后训练 语言模型 智能体 开源引擎

📋 核心要点

现有RL训练系统难以有效处理全模态输入、大规模运行的鲁棒性以及陈旧性与吞吐量的权衡。
Relax通过全模态原生架构、故障隔离的服务设计和TransferQueue数据总线实现异步训练，解决上述挑战。
实验表明，Relax在多种模型和模态上实现了显著的加速和稳定的收敛，并支持MoE模型。

📝 摘要（中文）

强化学习（RL）后训练已被证明能有效激发大型语言模型的推理、自我反思和工具使用能力。随着模型扩展到全模态输入和智能体多轮工作流，RL训练系统面临三个相互依赖的挑战：异构数据流、大规模运行的鲁棒性以及陈旧性与吞吐量的权衡。我们提出了Relax（Reinforcement Engine Leveraging Agentic X-modality），一个开源RL训练引擎，通过三个协同设计的架构层来应对这些挑战。首先，一个全模态原生架构将多模态支持构建到整个堆栈中——从数据预处理和模态感知并行到推理生成——而不是将其改造到以文本为中心的管道上。其次，每个RL角色都作为独立的、故障隔离的服务运行，可以扩展、恢复和升级，而无需全局协调。第三，服务级解耦通过TransferQueue数据总线实现异步训练，其中单个陈旧性参数在on-policy、near-on-policy和完全异步执行之间平滑插值。Relax在Qwen3-4B on-policy训练上实现了比veRL快1.20倍的端到端加速。其完全异步模式在Qwen3-4B上比colocate快1.76倍，在Qwen3-Omni-30B上快2.00倍，同时所有模式都收敛到相同的奖励水平。Relax支持R3 (Rollout Routing Replay)，对于MoE模型只有1.9%的开销，而veRL在相同配置下有32%的性能下降。它进一步展示了Qwen3-Omni在图像、文本和音频上的稳定全模态RL收敛，在视频上持续超过2000步而没有性能下降。Relax可在https://github.com/rednote-ai/Relax 获取。

🔬 方法详解

问题定义：论文旨在解决大规模全模态强化学习后训练中，异构数据流、运行鲁棒性和陈旧性-吞吐量权衡这三个关键问题。现有方法通常是基于文本中心管道进行改造，难以有效支持多模态数据，且在大规模场景下容易出现故障，同步训练方式限制了吞吐量。

核心思路：Relax的核心思路是构建一个全模态原生、服务解耦且支持异步训练的强化学习引擎。通过将多模态支持集成到整个训练堆栈中，实现对异构数据的有效处理。服务解耦提高了系统的鲁棒性和可扩展性。异步训练则允许在陈旧性和吞吐量之间进行灵活的权衡。

技术框架：Relax的整体架构包含三个主要层：全模态原生架构、服务解耦架构和异步训练架构。全模态原生架构负责数据预处理、模态感知并行和推理生成。服务解耦架构将每个RL角色作为独立的服务运行，实现故障隔离和独立扩展。异步训练架构通过TransferQueue数据总线实现数据传输，并使用陈旧性参数控制训练的同步程度。

关键创新：Relax的关键创新在于其全栈式的多模态支持和异步训练机制。与现有方法不同，Relax不是简单地将多模态功能添加到现有的文本中心管道中，而是从底层架构上支持多模态数据。异步训练机制允许在保证收敛性的前提下，显著提高训练吞吐量。

关键设计：Relax的关键设计包括：1) 全模态数据预处理流程，支持图像、文本和音频等多种模态；2) 模态感知并行策略，根据不同模态的特点进行优化；3) TransferQueue数据总线，用于异步数据传输；4) 可调节的陈旧性参数，用于控制训练的同步程度。具体的损失函数和网络结构取决于具体的应用场景。

🖼️ 关键图片

📊 实验亮点

Relax在Qwen3-4B on-policy训练上实现了比veRL快1.20倍的端到端加速。其完全异步模式在Qwen3-4B上比colocate快1.76倍，在Qwen3-Omni-30B上快2.00倍，同时所有模式都收敛到相同的奖励水平。在MoE模型上，Relax支持R3，开销仅为1.9%，而veRL的性能下降32%。

🎯 应用场景

Relax可应用于各种需要大规模全模态强化学习后训练的场景，例如智能对话系统、多模态智能体、机器人控制等。该研究成果有助于提升模型的推理、自我反思和工具使用能力，并推动人工智能在更广泛领域的应用。未来，Relax有望成为构建通用人工智能的重要基础设施。

📄 摘要（原文）

Reinforcement learning (RL) post-training has proven effective at unlocking reasoning, self-reflection, and tool-use capabilities in large language models. As models extend to omni-modal inputs and agentic multi-turn workflows, RL training systems face three interdependent challenges: heterogeneous data flows, operational robustness at scale, and the staleness -- throughput tradeoff. We present \textbf{Relax} (Reinforcement Engine Leveraging Agentic X-modality), an open-source RL training engine that addresses these challenges through three co-designed architectural layers. First, an \emph{omni-native architecture} builds multimodal support into the full stack -- from data preprocessing and modality-aware parallelism to inference generation -- rather than retrofitting it onto a text-centric pipeline. Second, each RL role runs as an independent, fault-isolated service that can be scaled, recovered, and upgraded without global coordination. Third, service-level decoupling enables asynchronous training via the TransferQueue data bus, where a single staleness parameter smoothly interpolates among on-policy, near-on-policy, and fully asynchronous execution. Relax achieves a 1.20$\times$ end-to-end speedup over veRL on Qwen3-4B on-policy training. Its fully async mode delivers a 1.76$\times$ speedup over colocate on Qwen3-4B and a 2.00$\times$ speedup on Qwen3-Omni-30B, while all modes converge to the same reward level. Relax supports R3 (Rollout Routing Replay)~\cite{ma2025r3} for MoE models with only 1.9\% overhead, compared to 32\% degradation in veRL under the same configuration. It further demonstrates stable omni-modal RL convergence on Qwen3-Omni across image, text, and audio, sustaining over 2{,}000 steps on video without degradation. Relax is available at https://github.com/rednote-ai/Relax.

Relax: An Asynchronous Reinforcement Learning Engine for Omni-Modal Post-Training at Scale

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理