LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

作者: Yingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang

分类: cs.CL, cs.AI

发布日期: 2025-03-10 (更新: 2025-03-11)

💡 一句话要点

LMM-R1：通过双阶段规则强化学习增强3B LMM的推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 强化学习 视觉推理 规则推理

📋 核心要点

现有LMM在视觉感知和逻辑推理的复杂交互中面临挑战，尤其是在小型模型中，架构限制了推理能力和模态对齐。
LMM-R1通过基础推理增强(FRE)和多模态泛化训练(MGT)的双阶段框架，将规则强化学习应用于多模态推理。
实验表明，LMM-R1在多模态和文本基准测试中均有显著提升，验证了文本推理增强对多模态泛化的有效性。

📝 摘要（中文）

本文提出LMM-R1，一个双阶段框架，旨在通过规则强化学习(RL)提升大型多模态模型(LMMs)的推理能力，尤其是在参数量较小的3B模型上。该框架针对视觉感知和逻辑推理之间复杂的相互作用带来的挑战，以及多模态预训练导致的推理能力退化问题。LMM-R1包含基础推理增强(FRE)和多模态泛化训练(MGT)两个阶段。FRE阶段首先利用纯文本数据和规则强化学习来增强推理能力，然后MGT阶段将这些推理能力泛化到多模态领域。在Qwen2.5-VL-Instruct-3B上的实验表明，LMM-R1在多模态和纯文本基准测试中分别实现了4.83%和4.5%的平均改进，在复杂的足球游戏任务中获得了3.63%的提升。实验结果验证了基于文本的推理增强能够有效地实现多模态泛化，提供了一种数据高效的范例，避免了代价高昂的高质量多模态训练数据。

🔬 方法详解

问题定义：本文旨在解决小型LMM（3B参数）在多模态推理任务中的能力不足问题。现有方法通常需要大量高质量的多模态数据进行训练，成本高昂。此外，多模态预训练可能会损害模型原有的文本推理能力，进一步限制了其在复杂推理任务中的表现。

核心思路：LMM-R1的核心思路是将多模态推理问题分解为两个阶段：首先，利用规则强化学习在纯文本数据上增强模型的基础推理能力；然后，通过多模态泛化训练，将这些推理能力迁移到多模态领域。这种方法避免了直接在多模态数据上进行强化学习，从而降低了数据需求和训练难度。

技术框架：LMM-R1包含两个主要阶段： 1. 基础推理增强 (FRE)：使用纯文本数据，通过规则强化学习训练LMM，提升其在文本领域的推理能力。规则强化学习利用预定义的规则作为奖励信号，引导模型学习正确的推理路径。 2. 多模态泛化训练 (MGT)：利用少量多模态数据，对经过FRE训练的LMM进行微调，使其能够将文本推理能力泛化到多模态场景中。MGT阶段的目标是使模型能够理解图像信息，并将其与文本推理过程相结合。

关键创新：LMM-R1的关键创新在于其双阶段训练策略，将文本推理增强和多模态泛化训练分离。这种方法能够有效利用纯文本数据，避免了对大量高质量多模态数据的依赖。此外，通过先增强基础推理能力，再进行多模态泛化，可以有效缓解多模态预训练对推理能力的损害。

关键设计：在FRE阶段，规则强化学习的具体实现方式（例如，奖励函数的设计、状态和动作的定义）会影响模型的训练效果。在MGT阶段，损失函数的设计需要平衡多模态理解和推理能力，避免模型过度拟合多模态数据而忘记了文本推理能力。此外，合适的学习率和训练轮数也是保证模型性能的关键。

🖼️ 关键图片

📊 实验亮点

LMM-R1在Qwen2.5-VL-Instruct-3B模型上进行了验证，实验结果表明，LMM-R1在多模态和纯文本基准测试中分别实现了4.83%和4.5%的平均改进。在复杂的足球游戏任务中，LMM-R1获得了3.63%的显著提升。这些结果表明，LMM-R1能够有效提升小型LMM的推理能力，并且具有良好的泛化性能。

🎯 应用场景

LMM-R1具有广泛的应用前景，例如智能问答、视觉推理、机器人导航等。该方法能够提升小型LMM在资源受限环境下的推理能力，使其能够应用于移动设备、嵌入式系统等平台。此外，LMM-R1的数据高效性使其在数据稀缺场景下具有优势，例如医学图像分析、罕见事件检测等。

📄 摘要（原文）

Enhancing reasoning in Large Multimodal Models (LMMs) faces unique challenges from the complex interplay between visual perception and logical reasoning, particularly in compact 3B-parameter architectures where architectural constraints limit reasoning capacity and modality alignment. While rule-based reinforcement learning (RL) excels in text-only domains, its multimodal extension confronts two critical barriers: (1) data limitations due to ambiguous answers and scarce complex reasoning examples, and (2) degraded foundational reasoning induced by multimodal pretraining. To address these challenges, we propose \textbf{LMM-R1}, a two-stage framework adapting rule-based RL for multimodal reasoning through \textbf{Foundational Reasoning Enhancement (FRE)} followed by \textbf{Multimodal Generalization Training (MGT)}. The FRE stage first strengthens reasoning abilities using text-only data with rule-based RL, then the MGT stage generalizes these reasoning capabilities to multimodal domains. Experiments on Qwen2.5-VL-Instruct-3B demonstrate that LMM-R1 achieves 4.83\% and 4.5\% average improvements over baselines in multimodal and text-only benchmarks, respectively, with a 3.63\% gain in complex Football Game tasks. These results validate that text-based reasoning enhancement enables effective multimodal generalization, offering a data-efficient paradigm that bypasses costly high-quality multimodal training data.

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理