CLIP-DPO: Vision-Language Models as a Source of Preference for Fixing Hallucinations in LVLMs

作者: Yassine Ouali, Adrian Bulat, Brais Martinez, Georgios Tzimiropoulos

分类: cs.CV

发布日期: 2024-08-19

备注: Accepted at ECCV 2024

💡 一句话要点

CLIP-DPO：利用视觉-语言模型偏好优化减少LVLM幻觉

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视觉语言模型 幻觉消除 偏好优化 CLIP模型 DPO算法

📋 核心要点

LVLM易产生幻觉，限制实际应用，现有方法依赖昂贵API或额外数据。
CLIP-DPO利用CLIP的图像-文本相似性，无需额外资源，优化LVLM。
实验表明，CLIP-DPO有效减少幻觉，提升零样本分类，保持原有性能。

📝 摘要（中文）

大型视觉语言模型(LVLMs)容易产生幻觉，例如物体及其属性或关系的错误描述，限制了其在现实世界的部署。为了解决这个问题并提高其鲁棒性，我们提出了CLIP-DPO，一种偏好优化方法，它利用对比预训练的视觉-语言(VL)嵌入模型(如CLIP)对LVLMs进行基于DPO的优化。与先前解决LVLM幻觉的工作不同，我们的方法不依赖于付费API，不需要额外的训练数据或部署其他外部LVLMs。相反，从初始的监督微调数据池开始，我们生成多样化的预测集，根据其CLIP图像-文本相似性进行排序，然后使用鲁棒的基于规则的方法进行过滤，以获得用于基于DPO训练的正负样本对。我们将CLIP-DPO微调应用于MobileVLM-v2系列模型和LlaVA-1.5，在所有情况下都观察到相对于基线模型在减少幻觉方面有显著改进。我们还观察到零样本分类的性能更好，表明基础能力得到改善，并验证了标准LVLM基准上的原始性能总体上得以保留。

🔬 方法详解

问题定义：LVLM（大型视觉语言模型）在生成文本时容易产生幻觉，即生成与图像内容不符或不真实的细节，例如错误地描述图像中的物体、属性或关系。现有方法通常依赖于昂贵的API服务、额外的训练数据，或者需要部署其他外部LVLM，这增加了成本和复杂性。

核心思路：CLIP-DPO的核心思路是利用预训练的视觉-语言模型（如CLIP）作为一种偏好来源，来指导LVLM的训练，从而减少幻觉。CLIP模型能够衡量图像和文本之间的相似度，因此可以用来判断LVLM生成的文本是否与图像内容一致。通过优化LVLM，使其生成的文本更符合CLIP模型的偏好，从而减少幻觉。

技术框架：CLIP-DPO的整体框架包括以下几个步骤：1) 使用初始的监督微调数据，让LVLM生成多样化的预测结果。2) 使用CLIP模型计算每个预测结果与输入图像之间的相似度。3) 基于CLIP相似度对预测结果进行排序，并使用基于规则的方法过滤，得到正负样本对（正样本是与图像更相关的文本，负样本是与图像不太相关的文本）。4) 使用DPO（Direct Preference Optimization）算法，利用正负样本对对LVLM进行微调，使其更倾向于生成与图像相关的文本。

关键创新：CLIP-DPO的关键创新在于利用现有的、对比预训练的视觉-语言模型（如CLIP）作为一种免费且有效的偏好来源，来指导LVLM的训练。这避免了对昂贵API或额外数据的依赖，降低了训练成本和复杂性。此外，该方法使用基于规则的过滤方法来选择高质量的正负样本对，进一步提高了训练效果。

关键设计：CLIP-DPO的关键设计包括：1) 使用多样化的预测生成策略，以获得更丰富的训练样本。2) 设计鲁棒的基于规则的过滤方法，以选择高质量的正负样本对。3) 使用DPO算法进行微调，DPO算法可以直接优化模型的偏好，而无需像传统的强化学习方法那样进行复杂的奖励函数设计。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CLIP-DPO能够显著减少MobileVLM-v2和LlaVA-1.5等模型中的幻觉现象。在零样本分类任务中，CLIP-DPO也表现出更好的性能，表明其基础能力得到提升。同时，该方法能够保持模型在标准LVLM基准测试中的原有性能。

🎯 应用场景

CLIP-DPO可应用于各种需要减少LVLM幻觉的场景，例如图像描述生成、视觉问答、机器人导航等。通过提高LVLM的可靠性和准确性，可以增强人机交互的自然性和有效性，并促进LVLM在实际应用中的部署，例如自动驾驶、智能客服、医疗诊断等。

📄 摘要（原文）

Despite recent successes, LVLMs or Large Vision Language Models are prone to hallucinating details like objects and their properties or relations, limiting their real-world deployment. To address this and improve their robustness, we present CLIP-DPO, a preference optimization method that leverages contrastively pre-trained Vision-Language (VL) embedding models, such as CLIP, for DPO-based optimization of LVLMs. Unlike prior works tackling LVLM hallucinations, our method does not rely on paid-for APIs, and does not require additional training data or the deployment of other external LVLMs. Instead, starting from the initial pool of supervised fine-tuning data, we generate a diverse set of predictions, which are ranked based on their CLIP image-text similarities, and then filtered using a robust rule-based approach to obtain a set of positive and negative pairs for DPO-based training. We applied CLIP-DPO fine-tuning to the MobileVLM-v2 family of models and to LlaVA-1.5, in all cases observing significant improvements in terms of hallucination reduction over baseline models. We also observe better performance for zero-shot classification, suggesting improved grounding capabilities, and verify that the original performance on standard LVLM benchmarks is overall preserved.

CLIP-DPO: Vision-Language Models as a Source of Preference for Fixing Hallucinations in LVLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理