InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model

作者: Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Ziyu Liu, Shengyuan Ding, Shenxi Wu, Yubo Ma, Haodong Duan, Wenwei Zhang, Kai Chen, Dahua Lin, Jiaqi Wang

分类: cs.CV, cs.CL

发布日期: 2025-01-21 (更新: 2025-05-20)

备注: ACL 2025 Findings

🔗 代码/项目: GITHUB

💡 一句话要点

提出InternLM-XComposer2.5-Reward，一个简单高效的多模态奖励模型，用于提升LVLM的生成质量。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态奖励模型 大型视觉语言模型 人类偏好对齐 强化学习 指令跟随 多模态对话 数据过滤

📋 核心要点

现有LVLM虽然强大，但生成结果偶有错误，且缺乏公开可用的多模态奖励模型进行优化。
论文提出InternLM-XComposer2.5-Reward，通过多模态偏好语料库训练，对LVLM的输出进行人类偏好对齐。
实验表明，该模型在多模态和文本奖励模型基准测试中表现出色，并能有效提升LVLM的指令跟随和对话能力。

📝 摘要（中文）

大型视觉语言模型(LVLMs)在视觉理解方面表现出色，但偶尔会产生不正确的输出。虽然使用强化学习或测试时缩放的奖励模型(RMs)有潜力提高生成质量，但仍然存在一个关键差距：公开可用的LVLM多模态RM非常稀缺，并且专有模型的实现细节通常不清楚。我们使用InternLM-XComposer2.5-Reward (IXC-2.5-Reward)弥合了这一差距，这是一个简单而有效的多模态奖励模型，可使LVLM与人类偏好保持一致。为了确保IXC-2.5-Reward的鲁棒性和通用性，我们建立了一个高质量的多模态偏好语料库，涵盖文本、图像和视频输入，跨越指令跟随、通用理解、富文本文档、数学推理和视频理解等不同领域。IXC-2.5-Reward在最新的多模态奖励模型基准测试中取得了优异的成绩，并在纯文本奖励模型基准测试中表现出具有竞争力的性能。我们进一步展示了IXC-2.5-Reward的三个关键应用：（1）为RL训练提供监督信号。我们将IXC-2.5-Reward与近端策略优化（PPO）集成，产生了IXC-2.5-Chat，它在指令跟随和多模态开放式对话中显示出持续的改进；（2）从候选响应中选择最佳响应以进行测试时缩放；（3）从现有的图像和视频指令微调训练数据中过滤掉异常值或噪声样本。为了确保可重复性并促进进一步的研究，我们已在https://github.com/InternLM/InternLM-XComposer/tree/main/InternLM-XComposer-2.5-Reward上开源了所有模型权重和训练配方。

🔬 方法详解

问题定义：论文旨在解决大型视觉语言模型（LVLM）生成结果不准确，且缺乏公开可用的多模态奖励模型（RM）的问题。现有方法要么依赖于专有模型，实现细节不透明，要么缺乏高质量的多模态偏好数据进行训练，导致RM的性能受限。

核心思路：论文的核心思路是构建一个简单而有效的多模态奖励模型InternLM-XComposer2.5-Reward (IXC-2.5-Reward)，通过高质量的多模态偏好语料库进行训练，使LVLM的输出与人类偏好对齐。该模型旨在为LVLM提供可靠的奖励信号，从而提升其生成质量。

技术框架：IXC-2.5-Reward的整体框架包括以下几个关键部分：1) 构建高质量的多模态偏好语料库，涵盖文本、图像和视频输入，覆盖指令跟随、通用理解、文本丰富的文档、数学推理和视频理解等多个领域。2) 使用该语料库训练奖励模型，使其能够评估LVLM生成的响应的质量，并给出相应的奖励分数。3) 将训练好的奖励模型应用于LVLM的训练或推理过程中，例如通过强化学习（如PPO）优化LVLM的策略，或在测试时选择最佳响应。

关键创新：论文的关键创新在于：1) 构建了高质量、多样化的多模态偏好语料库，为训练鲁棒的奖励模型提供了数据基础。2) 提出了一个简单而有效的多模态奖励模型IXC-2.5-Reward，该模型在多个基准测试中表现出色，并能有效提升LVLM的性能。3) 验证了该奖励模型在多个应用场景中的有效性，包括强化学习训练、测试时响应选择和数据过滤。

关键设计：论文的关键设计包括：1) 多模态偏好语料库的构建，需要仔细设计数据收集和标注流程，以确保数据的质量和多样性。2) 奖励模型的网络结构和训练目标，需要选择合适的模型架构和损失函数，以最大化模型对人类偏好的学习能力。3) 强化学习训练过程中的奖励信号设计，需要平衡奖励模型的准确性和稳定性，以避免训练过程中的崩溃或奖励滥用。

🖼️ 关键图片

📊 实验亮点

IXC-2.5-Reward在多模态奖励模型基准测试中取得了优异的成绩，并在文本奖励模型基准测试中表现出具有竞争力的性能。通过与PPO集成，IXC-2.5-Chat在指令跟随和多模态开放式对话中显示出持续的改进。该模型还可用于过滤噪声数据，提升训练数据质量。

🎯 应用场景

该研究成果可广泛应用于提升多模态大模型的生成质量，例如在智能客服、教育辅导、内容创作等领域，通过奖励模型引导模型生成更符合人类偏好的内容。此外，该模型还可用于过滤低质量训练数据，提升模型训练效率。

📄 摘要（原文）

Despite the promising performance of Large Vision Language Models (LVLMs) in visual understanding, they occasionally generate incorrect outputs. While reward models (RMs) with reinforcement learning or test-time scaling offer the potential for improving generation quality, a critical gap remains: publicly available multi-modal RMs for LVLMs are scarce, and the implementation details of proprietary models are often unclear. We bridge this gap with InternLM-XComposer2.5-Reward (IXC-2.5-Reward), a simple yet effective multi-modal reward model that aligns LVLMs with human preferences. To ensure the robustness and versatility of IXC-2.5-Reward, we set up a high-quality multi-modal preference corpus spanning text, image, and video inputs across diverse domains, such as instruction following, general understanding, text-rich documents, mathematical reasoning, and video understanding. IXC-2.5-Reward achieves excellent results on the latest multi-modal reward model benchmark and shows competitive performance on text-only reward model benchmarks. We further demonstrate three key applications of IXC-2.5-Reward: (1) Providing a supervisory signal for RL training. We integrate IXC-2.5-Reward with Proximal Policy Optimization (PPO) yields IXC-2.5-Chat, which shows consistent improvements in instruction following and multi-modal open-ended dialogue; (2) Selecting the best response from candidate responses for test-time scaling; and (3) Filtering outlier or noisy samples from existing image and video instruction tuning training data. To ensure reproducibility and facilitate further research, we have open-sourced all model weights and training recipes at https://github.com/InternLM/InternLM-XComposer/tree/main/InternLM-XComposer-2.5-Reward

InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理