V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization
作者: Yuxi Xie, Guanzhen Li, Xiao Xu, Min-Yen Kan
分类: cs.CV, cs.AI
发布日期: 2024-11-05
备注: EMNLP 2024 Findings; 9 pages, 6 figures, 5 tables (16 pages, 8 figures, 8 tables including references and appendices)
🔗 代码/项目: GITHUB
💡 一句话要点
提出V-DPO,通过视觉引导的直接偏好优化缓解大型视觉语言模型中的幻觉问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 幻觉缓解 直接偏好优化 偏好学习 视觉上下文学习
📋 核心要点
- LVLM过度依赖LLM骨干网络,导致对视觉上下文关注不足,产生幻觉。
- V-DPO通过偏好学习,减轻LVLM对语言先验的依赖,增强视觉上下文学习。
- V-DPO在幻觉基准测试中显著优于基线方法,尤其擅长从图像对比偏好数据中学习。
📝 摘要(中文)
大型视觉语言模型(LVLMs)存在幻觉问题,导致输出的文本响应与输入的视觉内容不一致。最近的研究表明,过度依赖大型语言模型(LLM)骨干网络是LVLM幻觉的原因之一,这会引入来自语言先验的偏差,导致对视觉输入的上下文关注不足。本文通过偏好学习来缓解这种过度依赖,从而解决幻觉问题。我们提出了视觉引导的直接偏好优化(V-DPO)来增强训练时的视觉上下文学习。为了解释V-DPO在不同类型训练数据上的有效性和泛化性,我们构建了一个包含响应对比和图像对比偏好对的合成数据集,并与现有人工标注的幻觉样本进行了比较。我们的方法在各种幻觉基准测试中取得了显著的改进。分析表明,V-DPO擅长从图像对比偏好数据中学习,展示了其卓越的提取和理解视觉上下文细微差别的能力。代码已公开。
🔬 方法详解
问题定义:大型视觉语言模型(LVLMs)在生成文本描述时,常常出现与输入图像内容不符的“幻觉”现象。现有方法过度依赖大型语言模型(LLM)的先验知识,忽略了视觉信息的有效利用,导致模型无法准确理解图像内容,从而产生幻觉。现有方法缺乏有效的机制来引导模型关注视觉信息,并抑制语言先验的干扰。
核心思路:V-DPO的核心思路是通过偏好学习,直接优化模型对视觉信息的利用。具体来说,V-DPO通过构建包含图像对比偏好对的数据集,引导模型学习区分不同视觉上下文下的正确响应。通过这种方式,V-DPO能够减轻模型对语言先验的过度依赖,增强对视觉信息的敏感性,从而减少幻觉的产生。选择直接偏好优化是因为它避免了显式奖励建模,更加稳定高效。
技术框架:V-DPO的整体框架基于直接偏好优化(DPO)。首先,构建包含响应对比和图像对比偏好对的训练数据集。然后,使用该数据集训练LVLM,目标是使模型更倾向于生成与视觉信息一致的响应。训练过程中,V-DPO利用图像对比偏好对,引导模型学习区分不同视觉上下文下的正确响应。框架主要包含数据构建模块和模型训练模块。
关键创新:V-DPO的关键创新在于引入了视觉引导的偏好学习机制。与传统的DPO方法不同,V-DPO不仅考虑了响应的质量,还考虑了响应与视觉信息的一致性。通过图像对比偏好对,V-DPO能够有效地引导模型学习视觉上下文,从而减少幻觉的产生。这种视觉引导的偏好学习机制是V-DPO与现有方法的本质区别。
关键设计:V-DPO的关键设计包括:1) 构建包含响应对比和图像对比偏好对的合成数据集。图像对比偏好对包含两个相似的图像,但其中一个图像包含关键信息,而另一个图像则缺少该信息。模型需要根据图像的差异,生成不同的响应。2) 使用DPO损失函数进行训练,目标是最大化模型对正确响应的偏好,同时最小化对错误响应的偏好。DPO损失函数的具体形式为:loss = -log(sigmoid(beta * (reward(preferred_response) - reward(dispreferred_response)))),其中beta是温度参数,控制偏好学习的强度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,V-DPO在多个幻觉基准测试中取得了显著的改进。例如,在Hallucination Benchmark上,V-DPO的性能优于基线方法5-10%。此外,V-DPO在图像对比偏好数据上的学习效果尤为突出,表明其能够有效地提取和理解视觉上下文的细微差别。这些结果验证了V-DPO在缓解LVLM幻觉方面的有效性。
🎯 应用场景
V-DPO可应用于各种需要视觉语言理解的场景,例如图像描述生成、视觉问答、机器人导航等。通过减少LVLM中的幻觉,V-DPO可以提高这些应用的可信度和可靠性。未来,V-DPO可以进一步扩展到更复杂的视觉语言任务中,例如视频理解、多模态对话等,具有广阔的应用前景。
📄 摘要(原文)
Large vision-language models (LVLMs) suffer from hallucination, resulting in misalignment between the output textual response and the input visual content. Recent research indicates that the over-reliance on the Large Language Model (LLM) backbone, as one cause of the LVLM hallucination, inherently introduces bias from language priors, leading to insufficient context attention to the visual inputs. We tackle this issue of hallucination by mitigating such over-reliance through preference learning. We propose Vision-guided Direct Preference Optimization (V-DPO) to enhance visual context learning at training time. To interpret the effectiveness and generalizability of V-DPO on different types of training data, we construct a synthetic dataset containing both response- and image-contrast preference pairs, compared against existing human-annotated hallucination samples. Our approach achieves significant improvements compared with baseline methods across various hallucination benchmarks. Our analysis indicates that V-DPO excels in learning from image-contrast preference data, demonstrating its superior ability to elicit and understand nuances of visual context. Our code is publicly available at https://github.com/YuxiXie/V-DPO.