LPOI: Listwise Preference Optimization for Vision Language Models

📄 arXiv: 2505.21061v1 📥 PDF

作者: Fatemeh Pesaran Zadeh, Yoojin Oh, Gunhee Kim

分类: cs.CV, cs.AI

发布日期: 2025-05-27

备注: ACL 2025 Main. Code is released at https://github.com/fatemehpesaran310/lpoi

🔗 代码/项目: GITHUB


💡 一句话要点

提出LPOI,通过列表式偏好优化减少视觉语言模型中的幻觉问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉语言模型 幻觉减少 偏好优化 列表式学习 对象感知

📋 核心要点

  1. 现有VLM对齐方法(如RLHF、DPO)易过度拟合文本信息,或加剧幻觉问题,效果不佳。
  2. LPOI通过掩盖图像中的关键对象并插值,自动构建排序列表,进行列表式偏好优化。
  3. 实验表明,LPOI在减少幻觉和提升VLM性能方面优于现有方法,无需额外标注。

📝 摘要(中文)

将大型视觉语言模型(VLM)与人类偏好对齐是一项具有挑战性的任务,因为诸如RLHF和DPO之类的方法通常过度拟合文本信息或加剧幻觉。虽然增加负样本图像在一定程度上解决了这些问题,但由于构建列表式图像样本的复杂性和成本,之前没有工作采用列表式偏好优化用于VLM。本文提出了LPOI,这是第一个为减少VLM中的幻觉而开发的对象感知列表式偏好优化方法。LPOI识别并掩盖图像中的关键对象,然后将掩盖区域在正样本和负样本图像之间进行插值,以形成一系列逐渐完整的图像。该模型经过训练,可以按照对象可见性的升序对这些图像进行排序,从而有效地减少幻觉,同时保持视觉保真度。LPOI不需要标准成对偏好数据之外的额外注释,因为它通过对象掩盖和插值自动构建排序列表。在MMHalBench、AMBER和Object HalBench上的综合实验证实,LPOI在减少幻觉和增强VLM性能方面优于现有的偏好优化方法。代码已开源。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)在与人类偏好对齐时,容易产生幻觉,即生成与图像内容不符的描述。现有的基于强化学习或直接偏好优化(如RLHF、DPO)的方法,往往过度依赖文本信息,或者在负样本构建上存在不足,导致幻觉问题加剧。构建高质量的负样本,特别是列表式的负样本,成本高昂,阻碍了相关研究的进展。

核心思路:LPOI的核心思路是通过对象感知的列表式偏好优化,让模型学习对图像序列进行排序,序列中的图像对象可见度逐渐增加。通过这种方式,模型能够学习到对象可见度与描述准确性之间的关系,从而减少幻觉。关键在于自动构建这种排序列表,避免人工标注的成本。

技术框架:LPOI的整体框架包括以下几个步骤:1) 对象识别与掩盖:首先识别图像中的关键对象,并将其掩盖。2) 图像插值:在原始图像(正样本)和掩盖对象后的图像(负样本)之间进行插值,生成一系列对象可见度逐渐增加的图像。3) 偏好优化:使用列表式偏好损失函数,训练模型对这些图像进行排序,目标是按照对象可见度的升序排列。

关键创新:LPOI的关键创新在于:1) 提出了对象感知的列表式偏好优化方法,这是首次将列表式偏好优化应用于VLM的幻觉减少。2) 自动构建排序列表,无需额外的人工标注,降低了训练成本。3) 通过对象掩盖和插值,生成具有连续对象可见度的图像序列,为模型学习对象与描述之间的关系提供了更丰富的信号。

关键设计:LPOI的关键设计包括:1) 对象识别:可以使用现有的对象检测模型或显著性检测方法来识别关键对象。2) 图像插值:可以使用线性插值或其他图像融合技术,在正样本和负样本之间生成中间图像。3) 列表式偏好损失函数:可以使用RankNet、ListNet等损失函数,训练模型对图像序列进行排序。具体参数设置取决于具体的VLM架构和数据集。

📊 实验亮点

LPOI在MMHalBench、AMBER和Object HalBench等多个幻觉评测基准上取得了显著的性能提升。例如,在MMHalBench上,LPOI相较于现有最佳方法,幻觉率降低了X%(具体数值请参考原论文)。实验结果表明,LPOI能够有效地减少VLM中的幻觉,同时保持视觉保真度,提升整体性能。

🎯 应用场景

LPOI可应用于各种需要减少幻觉的视觉语言任务,例如图像描述、视觉问答、图像生成等。该方法能够提高VLM的可靠性和准确性,使其在医疗诊断、自动驾驶、智能客服等领域具有更广泛的应用前景。未来,LPOI可以与其他技术结合,进一步提升VLM的性能和鲁棒性。

📄 摘要(原文)

Aligning large VLMs with human preferences is a challenging task, as methods like RLHF and DPO often overfit to textual information or exacerbate hallucinations. Although augmenting negative image samples partially addresses these pitfalls, no prior work has employed listwise preference optimization for VLMs, due to the complexity and cost of constructing listwise image samples. In this work, we propose LPOI, the first object-aware listwise preference optimization developed for reducing hallucinations in VLMs. LPOI identifies and masks a critical object in the image, and then interpolates the masked region between the positive and negative images to form a sequence of incrementally more complete images. The model is trained to rank these images in ascending order of object visibility, effectively reducing hallucinations while retaining visual fidelity. LPOI requires no extra annotations beyond standard pairwise preference data, as it automatically constructs the ranked lists through object masking and interpolation. Comprehensive experiments on MMHalBench, AMBER, and Object HalBench confirm that LPOI outperforms existing preference optimization methods in reducing hallucinations and enhancing VLM performance. We make the code available at https://github.com/fatemehpesaran310/lpoi.