Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning
作者: Xiaokun Wang, Peiyu Wang, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou
分类: cs.CV
发布日期: 2025-05-12 (更新: 2025-06-09)
💡 一句话要点
提出Skywork-VL Reward,用于提升多模态理解和推理任务的奖励模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态理解 奖励模型 视觉-语言模型 偏好学习 多模态推理
📋 核心要点
- 现有视觉-语言模型在多模态理解和推理方面仍面临挑战,缺乏有效的奖励信号来指导模型训练。
- Skywork-VL Reward通过构建大规模多模态偏好数据集,并设计基于Qwen2.5-VL-7B-Instruct的奖励模型来解决该问题。
- 实验表明,Skywork-VL Reward在多模态和文本基准测试中均表现出色,并能有效提升多模态推理能力。
📝 摘要(中文)
本文提出Skywork-VL Reward,一个为多模态理解和推理任务提供奖励信号的多模态奖励模型。该方法包含两个关键组成部分:首先,构建一个大规模多模态偏好数据集,覆盖广泛的任务和场景,其响应数据来源于标准视觉-语言模型(VLM)和高级VLM推理器。其次,基于Qwen2.5-VL-7B-Instruct设计奖励模型架构,集成奖励头,并在成对偏好数据上应用多阶段微调,使用成对排序损失。实验评估表明,Skywork-VL Reward在多模态VL-RewardBench上取得了最先进的结果,并在纯文本RewardBench基准测试中表现出竞争优势。此外,基于Skywork-VL Reward构建的偏好数据被证明对训练混合偏好优化(MPO)非常有效,从而显著提高了多模态推理能力。研究结果表明,Skywork-VL Reward是朝着通用、可靠的多模态对齐奖励模型迈出的重要一步。该模型已公开发布,以提高透明度和可重复性。
🔬 方法详解
问题定义:论文旨在解决多模态理解和推理任务中,缺乏有效奖励信号的问题。现有的视觉-语言模型在复杂场景下的推理能力不足,需要更精确的奖励机制来指导模型训练,从而提升其性能。
核心思路:论文的核心思路是构建一个高质量的多模态偏好数据集,并在此基础上训练一个能够准确评估模型输出质量的奖励模型。通过奖励模型提供的反馈信号,可以更有效地训练视觉-语言模型,提升其多模态理解和推理能力。
技术框架:Skywork-VL Reward的技术框架主要包含两个阶段:数据构建和模型训练。首先,构建大规模多模态偏好数据集,数据来源于标准VLM和高级VLM推理器。然后,基于Qwen2.5-VL-7B-Instruct构建奖励模型,并添加一个奖励头。最后,使用成对排序损失在偏好数据上进行多阶段微调。
关键创新:论文的关键创新在于构建了高质量的多模态偏好数据集,该数据集覆盖了广泛的任务和场景,能够更全面地反映模型在多模态理解和推理方面的能力。此外,利用该数据集训练的奖励模型能够提供更准确的奖励信号,从而更有效地指导VLM的训练。
关键设计:奖励模型基于Qwen2.5-VL-7B-Instruct,并添加了一个奖励头用于预测奖励值。训练过程中,使用成对排序损失来优化奖励模型,使其能够区分不同质量的输出。具体而言,对于每个输入,模型会生成多个候选输出,然后人工或通过其他模型对这些输出进行排序。奖励模型的训练目标是使高质量输出的奖励值高于低质量输出的奖励值。
🖼️ 关键图片
📊 实验亮点
Skywork-VL Reward在VL-RewardBench上取得了SOTA结果,并在文本RewardBench上表现出竞争力。使用Skywork-VL Reward构建的偏好数据训练MPO后,多模态推理能力得到显著提升。这些结果表明,该奖励模型能够有效评估多模态理解和推理能力,并能指导VLM的训练。
🎯 应用场景
Skywork-VL Reward可广泛应用于多模态对话系统、视觉问答、图像描述生成等领域。通过提供更准确的奖励信号,可以提升这些应用的用户体验和智能化水平。未来,该研究可进一步扩展到机器人控制、自动驾驶等需要复杂多模态理解和推理的领域。
📄 摘要(原文)
We propose Skywork-VL Reward, a multimodal reward model that provides reward signals for both multimodal understanding and reasoning tasks. Our technical approach comprises two key components: First, we construct a large-scale multimodal preference dataset that covers a wide range of tasks and scenarios, with responses collected from both standard vision-language models (VLMs) and advanced VLM reasoners. Second, we design a reward model architecture based on Qwen2.5-VL-7B-Instruct, integrating a reward head and applying multi-stage fine-tuning using pairwise ranking loss on pairwise preference data. Experimental evaluations show that Skywork-VL Reward achieves state-of-the-art results on multimodal VL-RewardBench and exhibits competitive performance on the text-only RewardBench benchmark. Furthermore, preference data constructed based on our Skywork-VL Reward proves highly effective for training Mixed Preference Optimization (MPO), leading to significant improvements in multimodal reasoning capabilities. Our results underscore Skywork-VL Reward as a significant advancement toward general-purpose, reliable reward models for multimodal alignment. Our model has been publicly released to promote transparency and reproducibility.