Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning

📄 arXiv: 2504.16656v4 📥 PDF

作者: Peiyu Wang, Yichen Wei, Yi Peng, Xiaokun Wang, Weijie Qiu, Wei Shen, Tianyidan Xie, Jiangbo Pei, Jianhao Zhang, Yunzhuo Hao, Xuchen Song, Yang Liu, Yahui Zhou

分类: cs.CV

发布日期: 2025-04-23 (更新: 2025-06-06)

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

Skywork R1V2提出混合强化学习框架,提升多模态推理能力并缓解视觉幻觉问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 强化学习 混合策略 视觉幻觉 奖励模型 样本选择 大模型 模型优化

📋 核心要点

  1. 现有模型在复杂推理和泛化能力之间难以平衡,且训练效率较低,存在优势消失问题。
  2. Skywork R1V2提出混合强化学习框架,结合MPO和GRPO,并引入选择性样本缓冲机制。
  3. 实验结果表明,R1V2在多个基准测试中取得领先性能,显著缩小与顶级专有模型的差距。

📝 摘要(中文)

Skywork R1V2是新一代多模态推理模型,是其前身Skywork R1V的重大飞跃。R1V2引入了一种混合强化学习范式,它联合利用混合偏好优化(MPO)和群体相对策略优化(GRPO),将奖励模型指导与基于规则的策略相结合,从而解决了长期存在的平衡复杂推理能力与广泛泛化能力的挑战。为了进一步提高训练效率,我们提出了选择性样本缓冲(SSB)机制,通过在整个优化过程中优先考虑高价值样本,有效地解决了GRPO中固有的优势消失困境。值得注意的是,我们观察到过度的强化信号会诱发视觉幻觉——我们通过在整个训练过程中校准奖励阈值来系统地监控和缓解这种现象。经验结果证实了R1V2的卓越能力,在OlympiadBench上取得了62.6,在AIME2024上取得了78.9,在LiveCodeBench上取得了63.6,在MMMU上取得了73.6等领先基准的性能。这些结果突显了R1V2相对于现有开源模型的优越性,并证明在缩小与包括Gemini 2.5和OpenAI-o4-mini在内的顶级专有系统之间的性能差距方面取得了重大进展。Skywork R1V2模型权重已公开发布,以促进开放性和可重复性。

🔬 方法详解

问题定义:现有的大型多模态模型在复杂推理任务中表现不足,尤其是在需要结合多种信息源进行推理时。同时,这些模型在训练过程中容易出现奖励信号不稳定的问题,导致训练效率低下,甚至出现视觉幻觉等不良现象。现有方法难以在推理能力、泛化能力和训练效率之间取得平衡。

核心思路:Skywork R1V2的核心思路是利用混合强化学习框架,将奖励模型指导的MPO和基于规则策略的GRPO相结合,从而实现更有效的策略学习。通过选择性样本缓冲机制,优先选择高价值样本进行训练,缓解优势消失问题,提高训练效率。同时,通过校准奖励阈值,有效抑制视觉幻觉的产生。

技术框架:Skywork R1V2的整体框架包含以下几个主要模块:1) 多模态输入编码器:负责将文本、图像等多种模态的输入信息编码成统一的向量表示。2) 混合强化学习模块:包含MPO和GRPO两个子模块,分别利用奖励模型和规则策略进行策略学习。3) 选择性样本缓冲模块:用于存储和选择训练样本,优先选择高价值样本。4) 奖励阈值校准模块:用于监控和调整奖励信号,防止视觉幻觉的产生。

关键创新:Skywork R1V2的关键创新在于以下几个方面:1) 提出了混合强化学习框架,有效结合了奖励模型和规则策略的优点。2) 引入了选择性样本缓冲机制,缓解了GRPO中的优势消失问题。3) 提出了奖励阈值校准方法,有效抑制了视觉幻觉的产生。

关键设计:在混合强化学习模块中,MPO和GRPO的权重需要仔细调整,以平衡奖励模型和规则策略的影响。选择性样本缓冲模块需要设计合适的采样策略,以保证高价值样本能够被优先选择。奖励阈值校准模块需要根据训练过程中的视觉幻觉程度动态调整奖励阈值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Skywork R1V2在多个基准测试中取得了显著的性能提升,例如在OlympiadBench上达到62.6,在AIME2024上达到78.9,在LiveCodeBench上达到63.6,在MMMU上达到73.6。这些结果表明,R1V2在多模态推理能力方面超越了现有的开源模型,并显著缩小了与顶级专有模型(如Gemini 2.5和OpenAI-o4-mini)的差距。

🎯 应用场景

Skywork R1V2具有广泛的应用前景,可应用于智能问答、图像理解、代码生成等领域。该模型能够有效提升复杂推理能力,并缓解视觉幻觉问题,从而提高用户体验和应用可靠性。未来,该模型有望在教育、医疗、金融等领域发挥重要作用。

📄 摘要(原文)

We present Skywork R1V2, a next-generation multimodal reasoning model and a major leap forward from its predecessor, Skywork R1V. At its core, R1V2 introduces a hybrid reinforcement learning paradigm that jointly leverages the Mixed Preference Optimization (MPO) and the Group Relative Policy Optimization (GRPO), which harmonizes reward-model guidance with rule-based strategies, thereby addressing the long-standing challenge of balancing sophisticated reasoning capabilities with broad generalization. To further enhance training efficiency, we propose the Selective Sample Buffer (SSB) mechanism, which effectively addresses the vanishing advantages dilemma inherent in GRPO by prioritizing high-value samples throughout the optimization process. Notably, we observe that excessive reinforcement signals can induce visual hallucinations--a phenomenon we systematically monitor and mitigate through calibrated reward thresholds throughout the training process. Empirical results affirm the exceptional capability of R1V2, with benchmark-leading performances such as 62.6 on OlympiadBench, 78.9 on AIME2024, 63.6 on LiveCodeBench, and 73.6 on MMMU. These results underscore R1V2's superiority over existing open-source models and demonstrate significant progress in closing the performance gap with premier proprietary systems, including Gemini 2.5 and OpenAI-o4-mini. The Skywork R1V2 model weights have been publicly released to promote openness and reproducibility https://huggingface.co/Skywork/Skywork-R1V2-38B.