Mitigating Hallucinations in Large Vision-Language Models via DPO: On-Policy Data Hold the Key
作者: Zhihe Yang, Xufang Luo, Dongqi Han, Yunjian Xu, Dongsheng Li
分类: cs.CV
发布日期: 2025-01-16 (更新: 2025-03-03)
备注: Accepted by CVPR 2025
🔗 代码/项目: GITHUB
💡 一句话要点
OPA-DPO:通过On-Policy数据对齐缓解大型视觉语言模型中的幻觉问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉语言模型 幻觉缓解 直接偏好优化 On-Policy学习 专家反馈
📋 核心要点
- 现有LVLM缓解幻觉的方法依赖于DPO,但数据构建方式多样,导致性能波动大,缺乏对数据分布的深入分析。
- OPA-DPO框架利用专家反馈修正幻觉响应,并确保原始响应和修正响应均与DPO的参考策略保持On-Policy对齐。
- 实验表明,OPA-DPO仅用少量数据(4.8k)即可显著降低LLaVA-1.5-7B的幻觉率,优于使用更多数据(16k)的现有SOTA方法。
📝 摘要(中文)
幻觉仍然是大型视觉语言模型(LVLMs)面临的主要挑战。直接偏好优化(DPO)作为解决幻觉问题的一种简单方案,受到了越来越多的关注。它直接从构建的偏好对中学习,这些偏好对反映了对同一提示和图像的响应中幻觉的严重程度。然而,现有工作中不同的数据构建方法带来了显著的性能差异。我们发现了一个关键因素:结果在很大程度上取决于构建的数据是否与DPO的初始(参考)策略对齐。理论分析表明,从离策略数据中学习受到更新策略和参考策略之间KL散度的阻碍。从数据集分布的角度来看,我们系统地总结了现有算法中使用DPO解决幻觉问题的内在缺陷。为了缓解这些问题,我们提出了On-Policy Alignment (OPA)-DPO框架,该框架独特地利用专家反馈来纠正产生幻觉的响应,并以on-policy的方式对齐原始响应和专家修改后的响应。值得注意的是,仅使用4.8k数据,与之前使用16k样本训练的SOTA算法相比,OPA-DPO在LLaVA-1.5-7B的幻觉率上实现了进一步的降低:在AMBER基准测试中降低了13.26%,在Object-Hal基准测试中降低了5.39%。我们的实现可在https://github.com/zhyang2226/OPA-DPO上找到。
🔬 方法详解
问题定义:论文旨在解决大型视觉语言模型(LVLMs)中普遍存在的幻觉问题,即模型生成与输入图像不符或不真实的描述。现有方法,特别是基于直接偏好优化(DPO)的方法,在数据构建上存在差异,导致性能不稳定。这些方法未能充分考虑数据分布与DPO参考策略之间的关系,导致训练效果不佳。
核心思路:论文的核心思路是确保用于DPO训练的数据与模型的初始策略(参考策略)保持On-Policy对齐。这意味着训练数据应该反映模型在没有经过大幅度调整时的行为。通过引入专家反馈来修正模型产生的幻觉响应,并将原始响应和修正后的响应都纳入On-Policy训练,从而引导模型学习更准确的视觉语言关联。
技术框架:OPA-DPO框架包含以下主要步骤:1) 使用LVLM生成对图像的初始响应;2) 利用专家反馈识别并修正响应中的幻觉;3) 构建偏好对,其中修正后的响应被认为是优于原始响应的;4) 使用DPO算法,基于这些偏好对来微调LVLM。关键在于,整个过程都力求保持数据与初始策略的On-Policy对齐。
关键创新:最重要的技术创新在于强调并实现了On-Policy数据对齐。与以往方法不同,OPA-DPO不仅关注偏好对的构建,更关注偏好对的来源,确保它们反映了模型在初始状态下的行为。通过专家反馈修正幻觉,保证了训练数据的质量,并避免了因Off-Policy数据带来的KL散度问题。
关键设计:OPA-DPO的关键设计包括:1) 使用专家反馈来生成高质量的偏好数据;2) 采用DPO作为优化算法,直接学习偏好;3) 强调数据构建过程中的On-Policy对齐,避免引入与初始策略偏差过大的数据。论文中没有明确提及具体的损失函数或网络结构修改,而是侧重于数据构建策略的优化。
🖼️ 关键图片
📊 实验亮点
OPA-DPO在LLaVA-1.5-7B上取得了显著的幻觉缓解效果。在AMBER基准测试中,幻觉率降低了13.26%,在Object-Hal基准测试中降低了5.39%。更重要的是,OPA-DPO仅使用了4.8k的数据,而之前的SOTA算法使用了16k的数据,表明OPA-DPO具有更高的数据效率。
🎯 应用场景
该研究成果可应用于各种需要可靠视觉语言理解的场景,例如:自动驾驶、智能客服、医疗影像诊断、教育辅助等。通过减少LVLM的幻觉,可以提高这些应用的安全性和可靠性,增强用户信任度,并为更高级的视觉语言交互奠定基础。
📄 摘要(原文)
Hallucination remains a major challenge for Large Vision-Language Models (LVLMs). Direct Preference Optimization (DPO) has gained increasing attention as a simple solution to hallucination issues. It directly learns from constructed preference pairs that reflect the severity of hallucinations in responses to the same prompt and image. Nonetheless, different data construction methods in existing works bring notable performance variations. We identify a crucial factor here: outcomes are largely contingent on whether the constructed data aligns on-policy w.r.t the initial (reference) policy of DPO. Theoretical analysis suggests that learning from off-policy data is impeded by the presence of KL-divergence between the updated policy and the reference policy. From the perspective of dataset distribution, we systematically summarize the inherent flaws in existing algorithms that employ DPO to address hallucination issues. To alleviate the problems, we propose On-Policy Alignment (OPA)-DPO framework, which uniquely leverages expert feedback to correct hallucinated responses and aligns both the original and expert-revised responses in an on-policy manner. Notably, with only 4.8k data, OPA-DPO achieves an additional reduction in the hallucination rate of LLaVA-1.5-7B: 13.26% on the AMBER benchmark and 5.39% on the Object-Hal benchmark, compared to the previous SOTA algorithm trained with 16k samples. Our implementation is available at https://github.com/zhyang2226/OPA-DPO.