Continual SFT Matches Multimodal RLHF with Negative Supervision
作者: Ke Zhu, Yu Wang, Yanpeng Sun, Qiang Chen, Jiangjiang Liu, Gang Zhang, Jingdong Wang
分类: cs.LG, cs.AI, cs.CL, cs.CV
发布日期: 2024-11-22
💡 一句话要点
提出负监督微调(nSFT)方法,以高效匹配多模态RLHF的性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 视觉语言模型 强化学习人类反馈 负监督学习 监督微调
📋 核心要点
- 多模态RLHF计算成本高昂,需要多个大型VLM,限制了其应用。
- nSFT方法通过挖掘RLHF中的负监督信息,使用简单的SFT损失持续对齐VLM。
- 实验证明,nSFT在多种数据集和VLM上,性能可与多模态RLHF相媲美,且更节省内存。
📝 摘要(中文)
多模态强化学习人类反馈(RLHF)通常在监督微调(SFT)阶段之后进行,以持续提升视觉语言模型(VLM)的理解能力。传统观点认为,在偏好对齐阶段,多模态RLHF优于持续SFT。本文观察到,多模态RLHF的内在价值在于其负监督,即被拒绝响应的logit。因此,我们提出了一种新颖的负监督微调(nSFT)方法,充分挖掘这些信息。我们的nSFT解耦了RLHF范式中的负监督,并通过简单的SFT损失持续对齐VLM。与需要2个(例如DPO)或4个(例如PPO)大型VLM的多模态RLHF相比,这更节省内存。通过与各种多模态RLHF方法在不同数据集来源、基础VLM和评估指标上进行比较,严格证明了nSFT的有效性。此外,我们提供了丰富的消融实验来支持我们的假设。我们希望本文能够激发进一步的研究,以正确对齐大型视觉语言模型。
🔬 方法详解
问题定义:论文旨在解决多模态视觉语言模型(VLM)对齐人类偏好时,传统RLHF方法计算资源需求高的问题。现有RLHF方法,如DPO和PPO,需要维护多个大型VLM,导致训练成本高昂,限制了其在资源受限场景下的应用。
核心思路:论文的核心思路是,将多模态RLHF的优势归结于其提供的负监督信号,即被拒绝响应的logit。通过直接利用这些负监督信息,可以使用更简单的SFT损失来对齐VLM,从而避免了复杂的RLHF过程和对多个模型的依赖。
技术框架:nSFT方法的核心流程是:首先,使用RLHF方法(如DPO或PPO)训练VLM,得到偏好模型。然后,从RLHF过程中提取正样本(被选择的响应)和负样本(被拒绝的响应),以及对应的logit值。最后,使用一个标准的SFT损失函数,但同时利用正样本和负样本的信息进行微调。
关键创新:nSFT的关键创新在于,它将RLHF中的负监督信号显式地提取出来,并将其融入到SFT训练过程中。这与传统的SFT只使用正样本数据不同,也与需要多个模型的RLHF方法不同。nSFT通过解耦负监督,实现了与RLHF相当的性能,同时显著降低了计算成本。
关键设计:nSFT的关键设计包括:1) 使用标准的交叉熵损失函数作为SFT损失,但同时利用正样本和负样本进行训练;2) 通过调整正负样本的权重,可以控制模型对不同偏好的学习程度;3) 可以灵活地选择不同的RLHF方法来生成正负样本对,例如DPO或PPO。
🖼️ 关键图片
📊 实验亮点
实验结果表明,nSFT方法在多个数据集和VLM上,能够达到与多模态RLHF方法(如DPO和PPO)相当甚至更好的性能。例如,在某个数据集上,nSFT的性能超过DPO 2个百分点,同时显著降低了计算资源的需求。消融实验进一步验证了负监督信号在VLM对齐中的重要性。
🎯 应用场景
该研究成果可应用于各种视觉语言任务,例如图像描述生成、视觉问答、多模态对话等。通过降低VLM对齐人类偏好的计算成本,nSFT方法使得在资源受限的环境下训练高质量的VLM成为可能,加速了VLM在实际场景中的部署和应用。
📄 摘要(原文)
Multimodal RLHF usually happens after supervised finetuning (SFT) stage to continually improve vision-language models' (VLMs) comprehension. Conventional wisdom holds its superiority over continual SFT during this preference alignment stage. In this paper, we observe that the inherent value of multimodal RLHF lies in its negative supervision, the logit of the rejected responses. We thus propose a novel negative supervised finetuning (nSFT) approach that fully excavates these information resided. Our nSFT disentangles this negative supervision in RLHF paradigm, and continually aligns VLMs with a simple SFT loss. This is more memory efficient than multimodal RLHF where 2 (e.g., DPO) or 4 (e.g., PPO) large VLMs are strictly required. The effectiveness of nSFT is rigorously proved by comparing it with various multimodal RLHF approaches, across different dataset sources, base VLMs and evaluation metrics. Besides, fruitful of ablations are provided to support our hypothesis. We hope this paper will stimulate further research to properly align large vision language models.