Aligning with Your Own Voice: Self-Corrected Preference Learning for Hallucination Mitigation in LVLMs

作者: Byeonggeuk Lim, JungMin Yun, Junehyoung Kwon, Kyeonghyun Kim, YoungBin Kim

分类: cs.AI

发布日期: 2026-04-27

备注: Accepted to ACL 2026

💡 一句话要点

提出AVES-DPO框架以解决LVLM中的幻觉问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视觉语言模型 幻觉缓解 偏好学习 自我修正 多模态学习

📋 核心要点

现有的偏好学习方法依赖专有模型，导致目标模型与专有模型之间的分布不匹配，影响对齐效果。
本文提出AVES-DPO框架，通过模型内在知识生成的分布内数据进行对齐，采用共识验证机制进行自我修正。
实验结果显示，AVES-DPO在幻觉缓解方面显著优于现有基线，且样本需求量仅为5.2k。

📝 摘要（中文）

大型视觉语言模型（LVLMs）常常面临幻觉问题。现有的基于偏好学习的方法主要依赖专有模型构建偏好数据集，这种依赖导致了专有模型与目标模型之间的分布不匹配，从而阻碍了有效的对齐。为了解决这一问题，本文提出了一种通过验证自我修正的偏好学习框架（AVES-DPO），该框架利用模型内在知识生成的分布内数据来对齐LVLM。我们的方法采用基于共识的验证机制来诊断多样的幻觉，并指导模型自我修正，从而生成与其内部分布严格兼容的偏好对。大量实验表明，AVES-DPO在幻觉缓解方面超越了现有基线，同时仅需5.2k样本。

🔬 方法详解

问题定义：本文旨在解决大型视觉语言模型（LVLMs）中的幻觉问题。现有方法依赖专有模型构建偏好数据集，导致目标模型与专有模型之间存在分布不匹配，影响对齐效果。

核心思路：提出AVES-DPO框架，利用模型的内在知识生成分布内数据，通过共识验证机制诊断幻觉并指导模型自我修正，从而生成与内部分布兼容的偏好对。

技术框架：AVES-DPO框架主要包括数据生成模块、共识验证模块和自我修正模块。数据生成模块从模型内在知识中提取信息，验证模块通过共识机制诊断幻觉，自我修正模块则根据验证结果调整模型输出。

关键创新：AVES-DPO的核心创新在于引入了基于共识的验证机制，使得模型能够自我修正，生成与其内部分布一致的偏好对。这一方法与传统依赖外部数据的偏好学习方法有本质区别。

关键设计：在设计中，采用了特定的损失函数来优化自我修正过程，并通过精确的参数设置确保模型在生成偏好对时的兼容性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AVES-DPO在幻觉缓解方面显著优于现有基线，具体性能提升幅度达到XX%（具体数据未知），且仅需5.2k样本，展示了其高效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动内容生成和多模态检索等。通过有效缓解幻觉问题，AVES-DPO能够提升这些系统的可靠性和用户体验，具有重要的实际价值和未来影响。

📄 摘要（原文）

Large Vision-Language Models (LVLMs) frequently suffer from hallucinations. Existing preference learning-based approaches largely rely on proprietary models to construct preference datasets. We identify that this reliance introduces a distributional mismatch between the proprietary and target models that hinders efficient alignment. To address this, we propose Alignment via VErified Self-correction DPO (AVES-DPO), a framework that aligns LVLMs using in-distribution data derived from the model's intrinsic knowledge. Our approach employs a consensus-based verification mechanism to diagnose diverse hallucinations and guides the model to self-correct, thereby generating preference pairs strictly compatible with its internal distribution. Extensive experiments demonstrate that AVES-DPO surpasses existing baselines in hallucination mitigation while requiring only 5.2k samples.

Aligning with Your Own Voice: Self-Corrected Preference Learning for Hallucination Mitigation in LVLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理