Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle

📄 arXiv: 2508.05612v3 📥 PDF

作者: Linghao Zhu, Yiran Guan, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Bin Qin, Jian Luan, Yuliang Liu, Xiang Bai

分类: cs.LG, cs.AI

发布日期: 2025-08-07 (更新: 2025-10-21)

备注: Project page at: https://xenozlh.github.io/Shuffle-R1/


💡 一句话要点

Shuffle-R1:通过数据中心动态重组提升多模态大语言模型强化学习效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 强化学习 数据中心 轨迹采样 批次重组 优势函数 训练效率

📋 核心要点

  1. 现有MLLM的RL训练存在优势坍塌和Rollout静默问题,导致梯度更新效率低下,阻碍长期学习。
  2. Shuffle-R1通过成对轨迹采样选择高对比度轨迹,并基于优势进行轨迹Shuffle,优化数据利用。
  3. 实验表明,Shuffle-R1在多个推理基准上优于现有RL基线,证明了数据中心自适应的有效性。

📝 摘要(中文)

强化学习(RL)已成为增强多模态大语言模型(MLLM)推理能力的有效后训练范式。然而,当前的RL流程常常受到训练效率低下的困扰,这源于两个未被充分探索的问题:优势坍塌(Advantage Collapsing),即批次中的大多数优势集中在零附近;以及Rollout静默(Rollout Silencing),即产生非零梯度的rollout比例随时间推移而减少。这些问题导致次优的梯度更新,并阻碍了长期学习效率。为了解决这些问题,我们提出了Shuffle-R1,一个简单而有原则的框架,通过动态重构轨迹采样和批次构成来提高RL微调效率。它引入了(1)成对轨迹采样,选择具有较大优势的高对比度轨迹,以提高梯度信号质量;以及(2)基于优势的轨迹Shuffle,通过知情的批次重组来增加有价值rollout的曝光度。在多个推理基准上的实验表明,我们的框架始终优于强大的RL基线,且开销极小。这些结果突出了以数据为中心的自适应对于MLLM中更高效的RL训练的重要性。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在强化学习(RL)微调过程中训练效率低下的问题。现有方法存在两个主要痛点:一是优势坍塌,即大部分轨迹的优势函数值接近于零,导致有效的梯度信号稀疏;二是Rollout静默,即随着训练的进行,能够产生有效梯度的轨迹比例逐渐降低,使得模型难以从新的经验中学习。这两个问题共同导致了次优的梯度更新和长期学习效率的下降。

核心思路:Shuffle-R1的核心思路是通过数据中心的方法,动态地调整轨迹采样和批次构建策略,从而提高RL训练的效率。具体来说,它通过选择具有高对比度的轨迹和增加有价值轨迹的曝光度来解决优势坍塌和Rollout静默问题。这种方法的核心在于更有效地利用现有的数据,而不是引入新的模型结构或损失函数。

技术框架:Shuffle-R1框架主要包含两个关键模块:Pairwise Trajectory Sampling(成对轨迹采样)和Advantage-based Trajectory Shuffle(基于优势的轨迹Shuffle)。首先,Pairwise Trajectory Sampling从所有轨迹中选择具有较大优势差异的轨迹对,以提高梯度信号的质量。然后,Advantage-based Trajectory Shuffle根据轨迹的优势值对轨迹进行重组,增加有价值轨迹在批次中的曝光度,从而促进更有效的学习。这两个模块共同作用,动态地调整训练数据的分布,以提高RL训练的效率。

关键创新:Shuffle-R1的关键创新在于其数据中心的视角,它没有改变传统的RL算法或模型结构,而是专注于如何更有效地利用现有的训练数据。与现有方法相比,Shuffle-R1通过动态地调整轨迹采样和批次构建策略,显著提高了RL训练的效率。这种方法的本质区别在于它将数据视为一种重要的资源,并通过优化数据的使用方式来提升模型性能。

关键设计:Pairwise Trajectory Sampling的关键设计在于如何选择具有高对比度的轨迹对。论文中可能使用了某种策略来计算轨迹的优势值,并选择优势值差异最大的轨迹对。Advantage-based Trajectory Shuffle的关键设计在于如何根据轨迹的优势值对轨迹进行重组。论文中可能使用了某种排序或加权策略,以确保有价值的轨迹在批次中占据更大的比例。具体的参数设置、损失函数和网络结构等技术细节需要参考论文原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Shuffle-R1在多个推理基准上始终优于强大的RL基线,且开销极小。具体的性能数据和提升幅度需要在论文中查找,但总体而言,Shuffle-R1证明了数据中心自适应对于MLLM中更高效的RL训练的重要性,并为未来的研究提供了新的方向。

🎯 应用场景

Shuffle-R1框架可广泛应用于各种需要利用多模态大语言模型进行决策和推理的场景,例如智能对话、机器人控制、自动驾驶、游戏AI等。通过提高RL训练效率,可以更快地训练出更强大的MLLM,从而提升这些应用场景的性能和用户体验。该研究对于推动通用人工智能的发展具有重要意义。

📄 摘要(原文)

Reinforcement learning (RL) has emerged as an effective post-training paradigm for enhancing the reasoning capabilities of multimodal large language model (MLLM). However, current RL pipelines often suffer from training inefficiencies caused by two underexplored issues: Advantage Collapsing, where most advantages in a batch concentrate near zero, and Rollout Silencing, where the proportion of rollouts contributing non-zero gradients diminishes over time. These issues lead to suboptimal gradient updates and hinder long-term learning efficiency. To address these issues, we propose Shuffle-R1, a simple yet principled framework that improves RL fine-tuning efficiency by dynamically restructuring trajectory sampling and batch composition. It introduces (1) Pairwise Trajectory Sampling, which selects high-contrast trajectories with large advantages to improve gradient signal quality, and (2) Advantage-based Trajectory Shuffle, which increases exposure of valuable rollouts through informed batch reshuffling. Experiments across multiple reasoning benchmarks show that our framework consistently outperforms strong RL baselines with minimal overhead. These results highlight the importance of data-centric adaptations for more efficient RL training in MLLM.