CLIP-DPO: Vision-Language Models as a Source of Preference for Fixing Hallucinations in LVLMs
作者: Yassine Ouali, Adrian Bulat, Brais Martinez, Georgios Tzimiropoulos
分类: cs.CV
发布日期: 2024-08-19
备注: Accepted at ECCV 2024
💡 一句话要点
CLIP-DPO:利用视觉-语言模型偏好优化减少LVLM幻觉
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉语言模型 幻觉消除 偏好优化 CLIP模型 DPO算法
📋 核心要点
- LVLM易产生幻觉,限制实际应用,现有方法依赖昂贵API或额外数据。
- CLIP-DPO利用CLIP的图像-文本相似性,无需额外资源,优化LVLM。
- 实验表明,CLIP-DPO有效减少幻觉,提升零样本分类,保持原有性能。
📝 摘要(中文)
大型视觉语言模型(LVLMs)容易产生幻觉,例如物体及其属性或关系的错误描述,限制了其在现实世界的部署。为了解决这个问题并提高其鲁棒性,我们提出了CLIP-DPO,一种偏好优化方法,它利用对比预训练的视觉-语言(VL)嵌入模型(如CLIP)对LVLMs进行基于DPO的优化。与先前解决LVLM幻觉的工作不同,我们的方法不依赖于付费API,不需要额外的训练数据或部署其他外部LVLMs。相反,从初始的监督微调数据池开始,我们生成多样化的预测集,根据其CLIP图像-文本相似性进行排序,然后使用鲁棒的基于规则的方法进行过滤,以获得用于基于DPO训练的正负样本对。我们将CLIP-DPO微调应用于MobileVLM-v2系列模型和LlaVA-1.5,在所有情况下都观察到相对于基线模型在减少幻觉方面有显著改进。我们还观察到零样本分类的性能更好,表明基础能力得到改善,并验证了标准LVLM基准上的原始性能总体上得以保留。
🔬 方法详解
问题定义:LVLM(大型视觉语言模型)在生成文本时容易产生幻觉,即生成与图像内容不符或不真实的细节,例如错误地描述图像中的物体、属性或关系。现有方法通常依赖于昂贵的API服务、额外的训练数据,或者需要部署其他外部LVLM,这增加了成本和复杂性。
核心思路:CLIP-DPO的核心思路是利用预训练的视觉-语言模型(如CLIP)作为一种偏好来源,来指导LVLM的训练,从而减少幻觉。CLIP模型能够衡量图像和文本之间的相似度,因此可以用来判断LVLM生成的文本是否与图像内容一致。通过优化LVLM,使其生成的文本更符合CLIP模型的偏好,从而减少幻觉。
技术框架:CLIP-DPO的整体框架包括以下几个步骤:1) 使用初始的监督微调数据,让LVLM生成多样化的预测结果。2) 使用CLIP模型计算每个预测结果与输入图像之间的相似度。3) 基于CLIP相似度对预测结果进行排序,并使用基于规则的方法过滤,得到正负样本对(正样本是与图像更相关的文本,负样本是与图像不太相关的文本)。4) 使用DPO(Direct Preference Optimization)算法,利用正负样本对对LVLM进行微调,使其更倾向于生成与图像相关的文本。
关键创新:CLIP-DPO的关键创新在于利用现有的、对比预训练的视觉-语言模型(如CLIP)作为一种免费且有效的偏好来源,来指导LVLM的训练。这避免了对昂贵API或额外数据的依赖,降低了训练成本和复杂性。此外,该方法使用基于规则的过滤方法来选择高质量的正负样本对,进一步提高了训练效果。
关键设计:CLIP-DPO的关键设计包括:1) 使用多样化的预测生成策略,以获得更丰富的训练样本。2) 设计鲁棒的基于规则的过滤方法,以选择高质量的正负样本对。3) 使用DPO算法进行微调,DPO算法可以直接优化模型的偏好,而无需像传统的强化学习方法那样进行复杂的奖励函数设计。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CLIP-DPO能够显著减少MobileVLM-v2和LlaVA-1.5等模型中的幻觉现象。在零样本分类任务中,CLIP-DPO也表现出更好的性能,表明其基础能力得到提升。同时,该方法能够保持模型在标准LVLM基准测试中的原有性能。
🎯 应用场景
CLIP-DPO可应用于各种需要减少LVLM幻觉的场景,例如图像描述生成、视觉问答、机器人导航等。通过提高LVLM的可靠性和准确性,可以增强人机交互的自然性和有效性,并促进LVLM在实际应用中的部署,例如自动驾驶、智能客服、医疗诊断等。
📄 摘要(原文)
Despite recent successes, LVLMs or Large Vision Language Models are prone to hallucinating details like objects and their properties or relations, limiting their real-world deployment. To address this and improve their robustness, we present CLIP-DPO, a preference optimization method that leverages contrastively pre-trained Vision-Language (VL) embedding models, such as CLIP, for DPO-based optimization of LVLMs. Unlike prior works tackling LVLM hallucinations, our method does not rely on paid-for APIs, and does not require additional training data or the deployment of other external LVLMs. Instead, starting from the initial pool of supervised fine-tuning data, we generate a diverse set of predictions, which are ranked based on their CLIP image-text similarities, and then filtered using a robust rule-based approach to obtain a set of positive and negative pairs for DPO-based training. We applied CLIP-DPO fine-tuning to the MobileVLM-v2 family of models and to LlaVA-1.5, in all cases observing significant improvements in terms of hallucination reduction over baseline models. We also observe better performance for zero-shot classification, suggesting improved grounding capabilities, and verify that the original performance on standard LVLM benchmarks is overall preserved.