LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL
作者: Yingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang
分类: cs.CL, cs.AI
发布日期: 2025-03-10 (更新: 2025-03-11)
💡 一句话要点
LMM-R1:通过双阶段规则强化学习增强3B LMM的推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 大型语言模型 强化学习 视觉推理 规则推理
📋 核心要点
- 现有LMM在视觉感知和逻辑推理的复杂交互中面临挑战,尤其是在小型模型中,架构限制了推理能力和模态对齐。
- LMM-R1通过基础推理增强(FRE)和多模态泛化训练(MGT)的双阶段框架,将规则强化学习应用于多模态推理。
- 实验表明,LMM-R1在多模态和文本基准测试中均有显著提升,验证了文本推理增强对多模态泛化的有效性。
📝 摘要(中文)
本文提出LMM-R1,一个双阶段框架,旨在通过规则强化学习(RL)提升大型多模态模型(LMMs)的推理能力,尤其是在参数量较小的3B模型上。该框架针对视觉感知和逻辑推理之间复杂的相互作用带来的挑战,以及多模态预训练导致的推理能力退化问题。LMM-R1包含基础推理增强(FRE)和多模态泛化训练(MGT)两个阶段。FRE阶段首先利用纯文本数据和规则强化学习来增强推理能力,然后MGT阶段将这些推理能力泛化到多模态领域。在Qwen2.5-VL-Instruct-3B上的实验表明,LMM-R1在多模态和纯文本基准测试中分别实现了4.83%和4.5%的平均改进,在复杂的足球游戏任务中获得了3.63%的提升。实验结果验证了基于文本的推理增强能够有效地实现多模态泛化,提供了一种数据高效的范例,避免了代价高昂的高质量多模态训练数据。
🔬 方法详解
问题定义:本文旨在解决小型LMM(3B参数)在多模态推理任务中的能力不足问题。现有方法通常需要大量高质量的多模态数据进行训练,成本高昂。此外,多模态预训练可能会损害模型原有的文本推理能力,进一步限制了其在复杂推理任务中的表现。
核心思路:LMM-R1的核心思路是将多模态推理问题分解为两个阶段:首先,利用规则强化学习在纯文本数据上增强模型的基础推理能力;然后,通过多模态泛化训练,将这些推理能力迁移到多模态领域。这种方法避免了直接在多模态数据上进行强化学习,从而降低了数据需求和训练难度。
技术框架:LMM-R1包含两个主要阶段: 1. 基础推理增强 (FRE):使用纯文本数据,通过规则强化学习训练LMM,提升其在文本领域的推理能力。规则强化学习利用预定义的规则作为奖励信号,引导模型学习正确的推理路径。 2. 多模态泛化训练 (MGT):利用少量多模态数据,对经过FRE训练的LMM进行微调,使其能够将文本推理能力泛化到多模态场景中。MGT阶段的目标是使模型能够理解图像信息,并将其与文本推理过程相结合。
关键创新:LMM-R1的关键创新在于其双阶段训练策略,将文本推理增强和多模态泛化训练分离。这种方法能够有效利用纯文本数据,避免了对大量高质量多模态数据的依赖。此外,通过先增强基础推理能力,再进行多模态泛化,可以有效缓解多模态预训练对推理能力的损害。
关键设计:在FRE阶段,规则强化学习的具体实现方式(例如,奖励函数的设计、状态和动作的定义)会影响模型的训练效果。在MGT阶段,损失函数的设计需要平衡多模态理解和推理能力,避免模型过度拟合多模态数据而忘记了文本推理能力。此外,合适的学习率和训练轮数也是保证模型性能的关键。
🖼️ 关键图片
📊 实验亮点
LMM-R1在Qwen2.5-VL-Instruct-3B模型上进行了验证,实验结果表明,LMM-R1在多模态和纯文本基准测试中分别实现了4.83%和4.5%的平均改进。在复杂的足球游戏任务中,LMM-R1获得了3.63%的显著提升。这些结果表明,LMM-R1能够有效提升小型LMM的推理能力,并且具有良好的泛化性能。
🎯 应用场景
LMM-R1具有广泛的应用前景,例如智能问答、视觉推理、机器人导航等。该方法能够提升小型LMM在资源受限环境下的推理能力,使其能够应用于移动设备、嵌入式系统等平台。此外,LMM-R1的数据高效性使其在数据稀缺场景下具有优势,例如医学图像分析、罕见事件检测等。
📄 摘要(原文)
Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges from the complex interplay between visual perception and logical reasoning, particularly in compact 3B-parameter architectures where architectural constraints limit reasoning capacity and modality alignment. While rule-based reinforcement learning (RL) excels in text-only domains, its multimodal extension confronts two critical barriers: (1) data limitations due to ambiguous answers and scarce complex reasoning examples, and (2) degraded foundational reasoning induced by multimodal pretraining. To address these challenges, we propose \textbf{LMM-R1}, a two-stage framework adapting rule-based RL for multimodal reasoning through \textbf{Foundational Reasoning Enhancement (FRE)} followed by \textbf{Multimodal Generalization Training (MGT)}. The FRE stage first strengthens reasoning abilities using text-only data with rule-based RL, then the MGT stage generalizes these reasoning capabilities to multimodal domains. Experiments on Qwen2.5-VL-Instruct-3B demonstrate that LMM-R1 achieves 4.83\% and 4.5\% average improvements over baselines in multimodal and text-only benchmarks, respectively, with a 3.63\% gain in complex Football Game tasks. These results validate that text-based reasoning enhancement enables effective multimodal generalization, offering a data-efficient paradigm that bypasses costly high-quality multimodal training data.