R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

📄 arXiv: 2503.05132v2 📥 PDF

作者: Hengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh

分类: cs.AI, cs.CV, cs.LG

发布日期: 2025-03-07 (更新: 2025-03-10)

备注: 10 pages, 6 figures

🔗 代码/项目: GITHUB


💡 一句话要点

R1-Zero在2B非SFT模型上成功复现视觉推理的“顿悟”现象

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推理 强化学习 视觉问答 涌现能力 非SFT模型

📋 核心要点

  1. 大型语言模型通过强化学习可以自主发展复杂的推理能力,但将此成功扩展到多模态推理面临挑战。
  2. 本文提出直接在非SFT的2B模型上应用强化学习,以期在多模态推理中复现R1模型的涌现特性。
  3. 实验结果表明,该方法在CVBench上显著提升了模型性能,并超过了基线模型和SFT设置。

📝 摘要(中文)

本文报告了在多模态推理中成功复现R1模型涌现特性的案例,该特性表现为模型在训练过程中出现自我反思和响应长度增加的“顿悟”时刻。研究基于Qwen2-VL-2B模型,直接在SAT数据集上应用强化学习,模型在CVBench上取得了59.47%的准确率,相比基线模型提升了约30%,并且超过了SFT设置约2%。此外,本文还分享了在Instruct模型上尝试使用强化学习实现类似R1推理的失败案例和经验,旨在阐明相关挑战。关键观察包括:(1)在Instruct模型上应用强化学习通常导致简单的推理轨迹;(2)简单的长度奖励无法有效激发推理能力。项目代码已开源。

🔬 方法详解

问题定义:现有方法难以在多模态推理中复现大型语言模型通过强化学习涌现的复杂推理能力,尤其是在视觉推理任务中,模型难以表现出自我反思和生成更长、更合理的响应。Instruct模型在强化学习过程中容易陷入简单的推理路径,而简单的长度奖励又不足以激发模型的推理能力。

核心思路:本文的核心思路是直接在未经SFT(监督微调)的预训练多模态模型上应用强化学习,避免SFT可能引入的偏差或限制,从而使模型能够更自由地探索和学习复杂的推理策略。通过精心设计的奖励机制,鼓励模型进行更深入的思考和更长的响应生成。

技术框架:整体框架包括一个预训练的多模态模型(Qwen2-VL-2B)和一个强化学习训练循环。模型接收视觉输入和问题,生成答案,然后根据奖励信号进行更新。奖励信号的设计至关重要,需要平衡准确性和推理长度。训练过程在SAT数据集上进行。

关键创新:最重要的创新点在于成功地在非SFT的2B模型上复现了R1模型的涌现特性,证明了在多模态推理中,通过合适的强化学习策略,即使是较小的模型也能展现出复杂的推理能力。此外,本文还指出了在Instruct模型上应用强化学习的局限性,为未来的研究方向提供了指导。

关键设计:关键设计包括:1) 使用Qwen2-VL-2B作为基础模型;2) 直接在SAT数据集上进行强化学习训练;3) 设计合适的奖励函数,可能包括准确性奖励和长度奖励,但需要避免过度依赖长度奖励导致模型生成无意义的长文本;4) 探索不同的强化学习算法和参数设置,以优化模型的训练效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,R1-Zero模型在CVBench上取得了59.47%的准确率,相比基线模型提升了约30%,并且超过了SFT设置约2%。这一结果表明,通过强化学习,即使在较小的模型上也能实现显著的性能提升,并成功复现了R1模型的涌现特性。

🎯 应用场景

该研究成果可应用于视觉问答、图像理解、机器人导航等领域。通过强化学习提升多模态模型的推理能力,可以使机器更好地理解图像内容,并进行更复杂的决策。未来,该方法有望应用于自动驾驶、智能家居、医疗诊断等领域,提升人工智能系统的智能化水平。

📄 摘要(原文)

Recently DeepSeek R1 demonstrated how reinforcement learning with simple rule-based incentives can enable autonomous development of complex reasoning in large language models, characterized by the "aha moment", in which the model manifest self-reflection and increased response length during training. However, attempts to extend this success to multimodal reasoning often failed to reproduce these key characteristics. In this report, we present the first successful replication of these emergent characteristics for multimodal reasoning on only a non-SFT 2B model. Starting with Qwen2-VL-2B and applying reinforcement learning directly on the SAT dataset, our model achieves 59.47% accuracy on CVBench, outperforming the base model by approximately ~30% and exceeding both SFT setting by ~2%. In addition, we share our failed attempts and insights in attempting to achieve R1-like reasoning using RL with instruct models. aiming to shed light on the challenges involved. Our key observations include: (1) applying RL on instruct model often results in trivial reasoning trajectories, and (2) naive length reward are ineffective in eliciting reasoning capabilities. The project code is available at https://github.com/turningpoint-ai/VisualThinker-R1-Zero