OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning
作者: Zhiyuan Liu, Yuting Zhang, Feng Liu, Changwang Zhang, Ying Sun, Jun Wang
分类: cs.LG, cs.IR
发布日期: 2025-03-20 (更新: 2025-03-28)
💡 一句话要点
OThink-MR1:通过动态强化学习激发多模态通用推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 大型语言模型 强化学习 通用推理 动态KL散度 策略优化 跨任务泛化
📋 核心要点
- 现有MLLM主要依赖监督微调,在特定任务上表现良好,但在通用推理能力方面存在不足。
- 论文提出OThink-MR1,核心是引入具有动态KL散度策略的群体相对策略优化(GRPO-D),以提升强化学习性能。
- 实验表明,GRPO-D在同任务和跨任务评估中均优于SFT和GRPO,验证了OThink-MR1的通用推理能力。
📝 摘要(中文)
多模态大型语言模型(MLLM)因其处理多样输入数据类型并在各种应用中生成连贯、上下文相关的输出的能力而备受关注。虽然监督微调(SFT)一直是增强MLLM在特定任务优化能力的主要方法,但它在培养关键的通用推理能力方面往往不足。尽管强化学习(RL)在克服这些限制方面具有很大的潜力,但它面临着两个重大挑战:(1)其在多模态任务中的通用能力在很大程度上仍未被探索,(2)其训练约束,包括恒定的Kullback-Leibler散度或clamp策略,通常会导致次优瓶颈。为了应对这些挑战,我们提出了OThink-MR1,这是一种先进的MLLM,具备跨多模态任务的深刻理解和推理能力。具体来说,我们引入了具有动态Kullback-Leibler策略的群体相对策略优化(GRPO-D),这显著提高了强化学习(RL)的性能。对于Qwen2-VL-2B-Instruct,GRPO-D在两个改编数据集上的同任务评估中,相对于SFT实现了超过5.72%的相对改进,相对于GRPO实现了超过13.59%的相对改进。此外,GRPO-D展示了卓越的跨任务泛化能力,在跨任务评估中,相对于SFT实现了超过61.63%的平均相对改进。这些结果表明,在多模态任务上使用GRPO-D训练的MLLM可以有效地转移到另一个任务,突出了我们提出的OThink-MR1模型的卓越通用推理能力。
🔬 方法详解
问题定义:现有MLLM在多模态任务中,通过监督微调(SFT)进行优化,但SFT难以提升模型的通用推理能力。强化学习(RL)虽然有潜力,但其在多模态任务中的泛化能力不足,且训练过程中的KL散度约束或clamp策略容易导致次优解。
核心思路:论文的核心思路是利用强化学习来提升MLLM的通用推理能力,并通过改进强化学习算法来克服其在多模态任务中的局限性。具体来说,通过动态调整KL散度,避免训练过程中的次优瓶颈,从而提升模型的泛化能力。
技术框架:OThink-MR1模型基于现有的MLLM架构(例如Qwen2-VL-2B-Instruct),并在此基础上引入了GRPO-D算法进行训练。整体流程包括:(1) 使用MLLM处理多模态输入;(2) 使用GRPO-D算法对MLLM进行强化学习训练,优化策略;(3) 评估模型在同任务和跨任务上的性能。
关键创新:论文的关键创新在于提出了Group Relative Policy Optimization with a dynamic Kullback-Leibler strategy (GRPO-D)。GRPO-D通过动态调整KL散度,避免了传统RL训练中因KL散度约束或clamp策略导致的次优瓶颈,从而提升了模型的泛化能力。与现有方法相比,GRPO-D更适应多模态任务,能够更好地提升MLLM的通用推理能力。
关键设计:GRPO-D算法的关键设计在于动态KL散度调整策略。具体来说,算法会根据训练过程中的策略变化情况,动态调整KL散度的权重,使得模型在探索和利用之间取得更好的平衡。此外,Group Relative Policy Optimization可能涉及对策略梯度进行分组和归一化,以提高训练的稳定性和效率。具体的损失函数和网络结构细节可能与底层MLLM架构有关,论文中可能未详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GRPO-D在Qwen2-VL-2B-Instruct上,同任务评估中相对于SFT实现了超过5.72%的相对改进,相对于GRPO实现了超过13.59%的相对改进。更重要的是,GRPO-D在跨任务评估中,相对于SFT实现了超过61.63%的平均相对改进,显著提升了模型的泛化能力,验证了OThink-MR1的有效性。
🎯 应用场景
OThink-MR1具有广泛的应用前景,例如智能问答、视觉导航、机器人控制等。该模型可以应用于需要处理多种模态信息并进行复杂推理的场景,例如医疗诊断、自动驾驶、智能家居等。通过提升MLLM的通用推理能力,可以使其更好地理解和处理真实世界的复杂信息,从而为各种应用带来更高的智能化水平。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) have gained significant traction for their ability to process diverse input data types and generate coherent, contextually relevant outputs across various applications. While supervised fine-tuning (SFT) has been the predominant approach to enhance MLLM capabilities in task-specific optimization, it often falls short in fostering crucial generalized reasoning abilities. Although reinforcement learning (RL) holds great promise in overcoming these limitations, it encounters two significant challenges: (1) its generalized capacities in multimodal tasks remain largely unexplored, and (2) its training constraints, including the constant Kullback-Leibler divergence or the clamp strategy, often result in suboptimal bottlenecks. To address these challenges, we propose OThink-MR1, an advanced MLLM equipped with profound comprehension and reasoning capabilities across multimodal tasks. Specifically, we introduce Group Relative Policy Optimization with a dynamic Kullback-Leibler strategy (GRPO-D), which markedly enhances reinforcement learning (RL) performance. For Qwen2-VL-2B-Instruct, GRPO-D achieves a relative improvement of more than 5.72% over SFT and more than 13.59% over GRPO in same-task evaluation on two adapted datasets. Furthermore, GRPO-D demonstrates remarkable cross-task generalization capabilities, with an average relative improvement of more than 61.63% over SFT in cross-task evaluation. These results highlight that the MLLM trained with GRPO-D on one multimodal task can be effectively transferred to another task, underscoring the superior generalized reasoning capabilities of our proposed OThink-MR1 model.