OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning

作者: Zhiyuan Liu, Yuting Zhang, Feng Liu, Changwang Zhang, Ying Sun, Jun Wang

分类: cs.LG, cs.IR

发布日期: 2025-03-20 (更新: 2025-03-28)

💡 一句话要点

OThink-MR1：通过动态强化学习激发多模态通用推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 强化学习 通用推理 动态KL散度 策略优化 跨任务泛化

📋 核心要点

现有MLLM主要依赖监督微调，在特定任务上表现良好，但在通用推理能力方面存在不足。
论文提出OThink-MR1，核心是引入具有动态KL散度策略的群体相对策略优化(GRPO-D)，以提升强化学习性能。
实验表明，GRPO-D在同任务和跨任务评估中均优于SFT和GRPO，验证了OThink-MR1的通用推理能力。

📝 摘要（中文）

多模态大型语言模型(MLLM)因其处理多样输入数据类型并在各种应用中生成连贯、上下文相关的输出的能力而备受关注。虽然监督微调(SFT)一直是增强MLLM在特定任务优化能力的主要方法，但它在培养关键的通用推理能力方面往往不足。尽管强化学习(RL)在克服这些限制方面具有很大的潜力，但它面临着两个重大挑战：(1)其在多模态任务中的通用能力在很大程度上仍未被探索，(2)其训练约束，包括恒定的Kullback-Leibler散度或clamp策略，通常会导致次优瓶颈。为了应对这些挑战，我们提出了OThink-MR1，这是一种先进的MLLM，具备跨多模态任务的深刻理解和推理能力。具体来说，我们引入了具有动态Kullback-Leibler策略的群体相对策略优化(GRPO-D)，这显著提高了强化学习(RL)的性能。对于Qwen2-VL-2B-Instruct，GRPO-D在两个改编数据集上的同任务评估中，相对于SFT实现了超过5.72%的相对改进，相对于GRPO实现了超过13.59%的相对改进。此外，GRPO-D展示了卓越的跨任务泛化能力，在跨任务评估中，相对于SFT实现了超过61.63%的平均相对改进。这些结果表明，在多模态任务上使用GRPO-D训练的MLLM可以有效地转移到另一个任务，突出了我们提出的OThink-MR1模型的卓越通用推理能力。

🔬 方法详解

问题定义：现有MLLM在多模态任务中，通过监督微调(SFT)进行优化，但SFT难以提升模型的通用推理能力。强化学习(RL)虽然有潜力，但其在多模态任务中的泛化能力不足，且训练过程中的KL散度约束或clamp策略容易导致次优解。

核心思路：论文的核心思路是利用强化学习来提升MLLM的通用推理能力，并通过改进强化学习算法来克服其在多模态任务中的局限性。具体来说，通过动态调整KL散度，避免训练过程中的次优瓶颈，从而提升模型的泛化能力。

技术框架：OThink-MR1模型基于现有的MLLM架构（例如Qwen2-VL-2B-Instruct），并在此基础上引入了GRPO-D算法进行训练。整体流程包括：(1) 使用MLLM处理多模态输入；(2) 使用GRPO-D算法对MLLM进行强化学习训练，优化策略；(3) 评估模型在同任务和跨任务上的性能。

关键创新：论文的关键创新在于提出了Group Relative Policy Optimization with a dynamic Kullback-Leibler strategy (GRPO-D)。GRPO-D通过动态调整KL散度，避免了传统RL训练中因KL散度约束或clamp策略导致的次优瓶颈，从而提升了模型的泛化能力。与现有方法相比，GRPO-D更适应多模态任务，能够更好地提升MLLM的通用推理能力。

关键设计：GRPO-D算法的关键设计在于动态KL散度调整策略。具体来说，算法会根据训练过程中的策略变化情况，动态调整KL散度的权重，使得模型在探索和利用之间取得更好的平衡。此外，Group Relative Policy Optimization可能涉及对策略梯度进行分组和归一化，以提高训练的稳定性和效率。具体的损失函数和网络结构细节可能与底层MLLM架构有关，论文中可能未详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GRPO-D在Qwen2-VL-2B-Instruct上，同任务评估中相对于SFT实现了超过5.72%的相对改进，相对于GRPO实现了超过13.59%的相对改进。更重要的是，GRPO-D在跨任务评估中，相对于SFT实现了超过61.63%的平均相对改进，显著提升了模型的泛化能力，验证了OThink-MR1的有效性。

🎯 应用场景

OThink-MR1具有广泛的应用前景，例如智能问答、视觉导航、机器人控制等。该模型可以应用于需要处理多种模态信息并进行复杂推理的场景，例如医疗诊断、自动驾驶、智能家居等。通过提升MLLM的通用推理能力，可以使其更好地理解和处理真实世界的复杂信息，从而为各种应用带来更高的智能化水平。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have gained significant traction for their ability to process diverse input data types and generate coherent, contextually relevant outputs across various applications. While supervised fine-tuning (SFT) has been the predominant approach to enhance MLLM capabilities in task-specific optimization, it often falls short in fostering crucial generalized reasoning abilities. Although reinforcement learning (RL) holds great promise in overcoming these limitations, it encounters two significant challenges: (1) its generalized capacities in multimodal tasks remain largely unexplored, and (2) its training constraints, including the constant Kullback-Leibler divergence or the clamp strategy, often result in suboptimal bottlenecks. To address these challenges, we propose OThink-MR1, an advanced MLLM equipped with profound comprehension and reasoning capabilities across multimodal tasks. Specifically, we introduce Group Relative Policy Optimization with a dynamic Kullback-Leibler strategy (GRPO-D), which markedly enhances reinforcement learning (RL) performance. For Qwen2-VL-2B-Instruct, GRPO-D achieves a relative improvement of more than 5.72% over SFT and more than 13.59% over GRPO in same-task evaluation on two adapted datasets. Furthermore, GRPO-D demonstrates remarkable cross-task generalization capabilities, with an average relative improvement of more than 61.63% over SFT in cross-task evaluation. These results highlight that the MLLM trained with GRPO-D on one multimodal task can be effectively transferred to another task, underscoring the superior generalized reasoning capabilities of our proposed OThink-MR1 model.

OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理