Mixed-R1: Unified Reward Perspective For Reasoning Capability in Multimodal Large Language Models

作者: Shilin Xu, Yanwei Li, Rui Yang, Tao Zhang, Yueyi Sun, Wei Chow, Linfeng Li, Hang Song, Qi Xu, Yunhai Tong, Xiangtai Li, Hao Fei

分类: cs.CL, cs.CV

发布日期: 2025-05-30

🔗 代码/项目: GITHUB

💡 一句话要点

提出Mixed-R1框架，统一多模态大语言模型推理能力的奖励视角

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 强化学习 奖励函数设计 推理能力 混合数据集

📋 核心要点

现有MLLM的强化学习后训练方法通常只关注特定任务，缺乏对多源任务的统一处理。
Mixed-R1框架通过混合奖励函数和混合数据集，为多模态大语言模型提供统一的推理能力提升方案。
实验证明，Mixed-R1在多种MLLM上表现出有效性，尤其在处理不同类型的推理任务时。

📝 摘要（中文）

本文提出了一种统一的框架Mixed-R1，旨在解决多模态大语言模型（MLLM）在强化学习中难以利用多源任务进行稳定训练的问题。该框架包含混合奖励函数设计（Mixed-Reward）和混合后训练数据集（Mixed-45K）。首先，设计了一个数据引擎来选择高质量的样本，构建Mixed-45K后训练数据集。然后，提出了Mixed-Reward设计，其中包含针对各种MLLM任务的不同奖励函数，包括二元或多项选择题的匹配奖励、图表数据集的图表奖励、定位问题的IoU奖励以及字幕数据集等长文本回复的开放式奖励。为了处理各种长文本内容，提出了一种新的开放式奖励，名为双向最大平均相似度（BMAS），通过利用生成回复和真实答案之间的tokenizer嵌入匹配。大量实验表明，该方法在各种MLLM上（包括Qwen2.5-VL和Intern-VL）的各种规模上都有效。

🔬 方法详解

问题定义：现有的大语言模型（LLM）和多模态大语言模型（MLLM）的强化学习后训练方法通常只针对特定任务，例如图像标注、数学问题或图表分析。缺乏一个能够利用多源MLLM任务进行稳定强化学习的通用框架。这导致模型在不同任务上的性能提升不均衡，难以实现全面的推理能力。

核心思路：本文的核心思路是提出一个统一的奖励视角，通过混合奖励函数和混合数据集，使MLLM能够同时学习和优化来自不同任务的信号。通过精心设计的数据选择策略和奖励函数，鼓励模型生成高质量的回复，从而提升其在各种推理任务上的表现。

技术框架：Mixed-R1框架主要包含两个核心模块：Mixed-45K后训练数据集构建和Mixed-Reward奖励函数设计。首先，利用数据引擎从现有数据集中选择高质量的样本，构建包含多种MLLM任务的Mixed-45K数据集。然后，针对不同类型的任务设计不同的奖励函数，包括匹配奖励、图表奖励、IoU奖励和开放式奖励。最后，使用强化学习算法（未知）对模型进行训练，以最大化混合奖励。

关键创新：该方法最重要的创新点在于提出了一个统一的框架，能够同时处理多种MLLM任务，并针对不同任务设计了相应的奖励函数。特别是，针对开放式文本回复，提出了双向最大平均相似度（BMAS）奖励，能够更准确地评估生成文本的质量。这种统一的视角使得模型能够更好地泛化到不同的推理任务上。

关键设计：Mixed-Reward包含四种不同的奖励函数：匹配奖励（用于二元或多项选择题），图表奖励（用于图表相关数据集），IoU奖励（用于定位问题），以及开放式奖励（用于长文本回复，如字幕数据集）。BMAS奖励通过计算生成回复和真实答案之间的tokenizer嵌入匹配程度来评估文本质量。数据引擎的具体选择策略未知，强化学习算法的具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Mixed-R1框架在多种MLLM（包括Qwen2.5-VL和Intern-VL）上都取得了显著的性能提升。具体的数据提升幅度未知，但论文强调了该方法在各种规模的模型上都有效，证明了其通用性和可扩展性。

🎯 应用场景

该研究成果可广泛应用于各种需要多模态推理能力的场景，例如智能问答系统、视觉导航、机器人控制、医学图像诊断等。通过提升MLLM的推理能力，可以使其更好地理解和处理复杂的多模态信息，从而实现更智能、更可靠的应用。

📄 摘要（原文）

Recent works on large language models (LLMs) have successfully demonstrated the emergence of reasoning capabilities via reinforcement learning (RL). Although recent efforts leverage group relative policy optimization (GRPO) for MLLMs post-training, they constantly explore one specific aspect, such as grounding tasks, math problems, or chart analysis. There are no works that can leverage multi-source MLLM tasks for stable reinforcement learning. In this work, we present a unified perspective to solve this problem. We present Mixed-R1, a unified yet straightforward framework that contains a mixed reward function design (Mixed-Reward) and a mixed post-training dataset (Mixed-45K). We first design a data engine to select high-quality examples to build the Mixed-45K post-training dataset. Then, we present a Mixed-Reward design, which contains various reward functions for various MLLM tasks. In particular, it has four different reward functions: matching reward for binary answer or multiple-choice problems, chart reward for chart-aware datasets, IoU reward for grounding problems, and open-ended reward for long-form text responses such as caption datasets. To handle the various long-form text content, we propose a new open-ended reward named Bidirectional Max-Average Similarity (BMAS) by leveraging tokenizer embedding matching between the generated response and the ground truth. Extensive experiments show the effectiveness of our proposed method on various MLLMs, including Qwen2.5-VL and Intern-VL on various sizes. Our dataset and model are available at https://github.com/xushilin1/mixed-r1.

Mixed-R1: Unified Reward Perspective For Reasoning Capability in Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理