InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model
作者: Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Ziyu Liu, Shengyuan Ding, Shenxi Wu, Yubo Ma, Haodong Duan, Wenwei Zhang, Kai Chen, Dahua Lin, Jiaqi Wang
分类: cs.CV, cs.CL
发布日期: 2025-01-21 (更新: 2025-05-20)
备注: ACL 2025 Findings
🔗 代码/项目: GITHUB
💡 一句话要点
提出InternLM-XComposer2.5-Reward,一个简单高效的多模态奖励模型,用于提升LVLM的生成质量。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态奖励模型 大型视觉语言模型 人类偏好对齐 强化学习 指令跟随 多模态对话 数据过滤
📋 核心要点
- 现有LVLM虽然强大,但生成结果偶有错误,且缺乏公开可用的多模态奖励模型进行优化。
- 论文提出InternLM-XComposer2.5-Reward,通过多模态偏好语料库训练,对LVLM的输出进行人类偏好对齐。
- 实验表明,该模型在多模态和文本奖励模型基准测试中表现出色,并能有效提升LVLM的指令跟随和对话能力。
📝 摘要(中文)
大型视觉语言模型(LVLMs)在视觉理解方面表现出色,但偶尔会产生不正确的输出。虽然使用强化学习或测试时缩放的奖励模型(RMs)有潜力提高生成质量,但仍然存在一个关键差距:公开可用的LVLM多模态RM非常稀缺,并且专有模型的实现细节通常不清楚。我们使用InternLM-XComposer2.5-Reward (IXC-2.5-Reward)弥合了这一差距,这是一个简单而有效的多模态奖励模型,可使LVLM与人类偏好保持一致。为了确保IXC-2.5-Reward的鲁棒性和通用性,我们建立了一个高质量的多模态偏好语料库,涵盖文本、图像和视频输入,跨越指令跟随、通用理解、富文本文档、数学推理和视频理解等不同领域。IXC-2.5-Reward在最新的多模态奖励模型基准测试中取得了优异的成绩,并在纯文本奖励模型基准测试中表现出具有竞争力的性能。我们进一步展示了IXC-2.5-Reward的三个关键应用:(1)为RL训练提供监督信号。我们将IXC-2.5-Reward与近端策略优化(PPO)集成,产生了IXC-2.5-Chat,它在指令跟随和多模态开放式对话中显示出持续的改进;(2)从候选响应中选择最佳响应以进行测试时缩放;(3)从现有的图像和视频指令微调训练数据中过滤掉异常值或噪声样本。为了确保可重复性并促进进一步的研究,我们已在https://github.com/InternLM/InternLM-XComposer/tree/main/InternLM-XComposer-2.5-Reward上开源了所有模型权重和训练配方。
🔬 方法详解
问题定义:论文旨在解决大型视觉语言模型(LVLM)生成结果不准确,且缺乏公开可用的多模态奖励模型(RM)的问题。现有方法要么依赖于专有模型,实现细节不透明,要么缺乏高质量的多模态偏好数据进行训练,导致RM的性能受限。
核心思路:论文的核心思路是构建一个简单而有效的多模态奖励模型InternLM-XComposer2.5-Reward (IXC-2.5-Reward),通过高质量的多模态偏好语料库进行训练,使LVLM的输出与人类偏好对齐。该模型旨在为LVLM提供可靠的奖励信号,从而提升其生成质量。
技术框架:IXC-2.5-Reward的整体框架包括以下几个关键部分:1) 构建高质量的多模态偏好语料库,涵盖文本、图像和视频输入,覆盖指令跟随、通用理解、文本丰富的文档、数学推理和视频理解等多个领域。2) 使用该语料库训练奖励模型,使其能够评估LVLM生成的响应的质量,并给出相应的奖励分数。3) 将训练好的奖励模型应用于LVLM的训练或推理过程中,例如通过强化学习(如PPO)优化LVLM的策略,或在测试时选择最佳响应。
关键创新:论文的关键创新在于:1) 构建了高质量、多样化的多模态偏好语料库,为训练鲁棒的奖励模型提供了数据基础。2) 提出了一个简单而有效的多模态奖励模型IXC-2.5-Reward,该模型在多个基准测试中表现出色,并能有效提升LVLM的性能。3) 验证了该奖励模型在多个应用场景中的有效性,包括强化学习训练、测试时响应选择和数据过滤。
关键设计:论文的关键设计包括:1) 多模态偏好语料库的构建,需要仔细设计数据收集和标注流程,以确保数据的质量和多样性。2) 奖励模型的网络结构和训练目标,需要选择合适的模型架构和损失函数,以最大化模型对人类偏好的学习能力。3) 强化学习训练过程中的奖励信号设计,需要平衡奖励模型的准确性和稳定性,以避免训练过程中的崩溃或奖励滥用。
🖼️ 关键图片
📊 实验亮点
IXC-2.5-Reward在多模态奖励模型基准测试中取得了优异的成绩,并在文本奖励模型基准测试中表现出具有竞争力的性能。通过与PPO集成,IXC-2.5-Chat在指令跟随和多模态开放式对话中显示出持续的改进。该模型还可用于过滤噪声数据,提升训练数据质量。
🎯 应用场景
该研究成果可广泛应用于提升多模态大模型的生成质量,例如在智能客服、教育辅导、内容创作等领域,通过奖励模型引导模型生成更符合人类偏好的内容。此外,该模型还可用于过滤低质量训练数据,提升模型训练效率。
📄 摘要(原文)
Despite the promising performance of Large Vision Language Models (LVLMs) in visual understanding, they occasionally generate incorrect outputs. While reward models (RMs) with reinforcement learning or test-time scaling offer the potential for improving generation quality, a critical gap remains: publicly available multi-modal RMs for LVLMs are scarce, and the implementation details of proprietary models are often unclear. We bridge this gap with InternLM-XComposer2.5-Reward (IXC-2.5-Reward), a simple yet effective multi-modal reward model that aligns LVLMs with human preferences. To ensure the robustness and versatility of IXC-2.5-Reward, we set up a high-quality multi-modal preference corpus spanning text, image, and video inputs across diverse domains, such as instruction following, general understanding, text-rich documents, mathematical reasoning, and video understanding. IXC-2.5-Reward achieves excellent results on the latest multi-modal reward model benchmark and shows competitive performance on text-only reward model benchmarks. We further demonstrate three key applications of IXC-2.5-Reward: (1) Providing a supervisory signal for RL training. We integrate IXC-2.5-Reward with Proximal Policy Optimization (PPO) yields IXC-2.5-Chat, which shows consistent improvements in instruction following and multi-modal open-ended dialogue; (2) Selecting the best response from candidate responses for test-time scaling; and (3) Filtering outlier or noisy samples from existing image and video instruction tuning training data. To ensure reproducibility and facilitate further research, we have open-sourced all model weights and training recipes at https://github.com/InternLM/InternLM-XComposer/tree/main/InternLM-XComposer-2.5-Reward