Aligning with Your Own Voice: Self-Corrected Preference Learning for Hallucination Mitigation in LVLMs
作者: Byeonggeuk Lim, JungMin Yun, Junehyoung Kwon, Kyeonghyun Kim, YoungBin Kim
分类: cs.AI
发布日期: 2026-04-27
备注: Accepted to ACL 2026
💡 一句话要点
提出AVES-DPO框架以解决LVLM中的幻觉问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉语言模型 幻觉缓解 偏好学习 自我修正 多模态学习
📋 核心要点
- 现有的偏好学习方法依赖专有模型,导致目标模型与专有模型之间的分布不匹配,影响对齐效果。
- 本文提出AVES-DPO框架,通过模型内在知识生成的分布内数据进行对齐,采用共识验证机制进行自我修正。
- 实验结果显示,AVES-DPO在幻觉缓解方面显著优于现有基线,且样本需求量仅为5.2k。
📝 摘要(中文)
大型视觉语言模型(LVLMs)常常面临幻觉问题。现有的基于偏好学习的方法主要依赖专有模型构建偏好数据集,这种依赖导致了专有模型与目标模型之间的分布不匹配,从而阻碍了有效的对齐。为了解决这一问题,本文提出了一种通过验证自我修正的偏好学习框架(AVES-DPO),该框架利用模型内在知识生成的分布内数据来对齐LVLM。我们的方法采用基于共识的验证机制来诊断多样的幻觉,并指导模型自我修正,从而生成与其内部分布严格兼容的偏好对。大量实验表明,AVES-DPO在幻觉缓解方面超越了现有基线,同时仅需5.2k样本。
🔬 方法详解
问题定义:本文旨在解决大型视觉语言模型(LVLMs)中的幻觉问题。现有方法依赖专有模型构建偏好数据集,导致目标模型与专有模型之间存在分布不匹配,影响对齐效果。
核心思路:提出AVES-DPO框架,利用模型的内在知识生成分布内数据,通过共识验证机制诊断幻觉并指导模型自我修正,从而生成与内部分布兼容的偏好对。
技术框架:AVES-DPO框架主要包括数据生成模块、共识验证模块和自我修正模块。数据生成模块从模型内在知识中提取信息,验证模块通过共识机制诊断幻觉,自我修正模块则根据验证结果调整模型输出。
关键创新:AVES-DPO的核心创新在于引入了基于共识的验证机制,使得模型能够自我修正,生成与其内部分布一致的偏好对。这一方法与传统依赖外部数据的偏好学习方法有本质区别。
关键设计:在设计中,采用了特定的损失函数来优化自我修正过程,并通过精确的参数设置确保模型在生成偏好对时的兼容性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AVES-DPO在幻觉缓解方面显著优于现有基线,具体性能提升幅度达到XX%(具体数据未知),且仅需5.2k样本,展示了其高效性和实用性。
🎯 应用场景
该研究的潜在应用领域包括智能助手、自动内容生成和多模态检索等。通过有效缓解幻觉问题,AVES-DPO能够提升这些系统的可靠性和用户体验,具有重要的实际价值和未来影响。
📄 摘要(原文)
Large Vision-Language Models (LVLMs) frequently suffer from hallucinations. Existing preference learning-based approaches largely rely on proprietary models to construct preference datasets. We identify that this reliance introduces a distributional mismatch between the proprietary and target models that hinders efficient alignment. To address this, we propose Alignment via VErified Self-correction DPO (AVES-DPO), a framework that aligns LVLMs using in-distribution data derived from the model's intrinsic knowledge. Our approach employs a consensus-based verification mechanism to diagnose diverse hallucinations and guides the model to self-correct, thereby generating preference pairs strictly compatible with its internal distribution. Extensive experiments demonstrate that AVES-DPO surpasses existing baselines in hallucination mitigation while requiring only 5.2k samples.