P\textsuperscript{2}-DPO: Grounding Hallucination in Perceptual Processing via Calibration Direct Preference Optimization

📄 arXiv: 2606.03376v1 📥 PDF

作者: Ruipeng Zhang, Zhihao Li, Haozhang Yuan, C. L. Philip Chen, Tong Zhang

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2026-06-02


💡 一句话要点

提出P²-DPO以解决视觉模型中的幻觉问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉语言模型 直接偏好优化 感知处理 视觉鲁棒性 幻觉问题 自生成偏好对 校准损失

📋 核心要点

  1. 现有方法未能有效解决视觉模型中的感知瓶颈和图像降级下的鲁棒性问题。
  2. 论文提出P²-DPO,通过模型自生成偏好对,针对感知和视觉鲁棒性进行优化。
  3. 实验结果显示,P²-DPO在多个基准测试中超越了依赖人类反馈的基线,提升了模型性能。

📝 摘要(中文)

幻觉问题近年来在大型视觉语言模型(LVLMs)中引起了广泛关注。直接偏好优化(DPO)旨在直接从人类提供的修正偏好中学习,以解决幻觉问题。然而,该方法尚未专门针对感知瓶颈或图像降级下的视觉鲁棒性不足。为此,本文提出了感知处理直接偏好优化(P²-DPO),通过模型生成和学习自身的偏好对,直接解决视觉瓶颈问题,同时避免了现有方法的视觉无关性和离策略数据的局限性。实验结果表明,P²-DPO在相似的训练数据和成本下,优于依赖昂贵人类反馈的强基线,并在关注区域保真度和图像降级场景中验证了其有效性。

🔬 方法详解

问题定义:本文旨在解决大型视觉语言模型中的幻觉问题,现有方法在处理感知瓶颈和图像降级时存在不足,尤其是偏好对的视觉无关性和离策略特性限制了模型学习的有效性。

核心思路:P²-DPO的核心思想是让模型自主生成和学习偏好对,从而直接针对视觉瓶颈进行优化,避免了传统方法的局限性。通过这种方式,模型能够更好地理解和处理视觉信息。

技术框架:P²-DPO的整体架构包括两个主要模块:一是基于关注与增强的偏好对构建方法,二是精确对齐视觉信号与文本生成的校准损失。模型通过这两个模块实现自我学习与优化。

关键创新:P²-DPO的最大创新在于其自生成的偏好对构建方法和校准损失设计,这与现有依赖人类反馈的偏好对形成了本质区别,显著提升了模型的视觉理解能力。

关键设计:在参数设置上,P²-DPO采用了针对关注区域的优化策略,校准损失设计则确保了视觉信号与文本生成之间的因果关系,增强了模型的视觉鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,P²-DPO在相同训练数据和成本下,超越了多个强基线,特别是在关注区域保真度(ARF)和图像降级场景中表现出色,验证了其在处理感知瓶颈和提升视觉鲁棒性方面的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能图像识别、自动图像描述生成以及增强现实等。通过提升视觉模型的鲁棒性和理解能力,P²-DPO可在多种实际场景中提供更准确的视觉信息处理,具有重要的实际价值和未来影响。

📄 摘要(原文)

Hallucination has recently garnered significant research attention in Large Vision-Language Models (LVLMs). Direct Preference Optimization (DPO) aims to learn directly from the corrected preferences provided by humans, thereby addressing the hallucination issue. Despite its success, this paradigm has yet to specifically target the perceptual bottleneck in attended regions or address insufficient Visual Robustness against image degradation. Furthermore, existing preference pairs are often vision-agnostic and their inherently off-policy nature limits their effectiveness in guiding model learning. To address these challenges, we propose Perceptual Processing Direct Preference Optimization (P\textsuperscript{2}-DPO), a novel training paradigm in which the model generates and learns from its own preference pairs, thereby directly addressing the identified visual bottlenecks while inherently avoiding the issues of vision-agnostic and off-policy data. It introduces: (1) an on-policy preference pairs construction method targeting Focus-and-Enhance perception and Visual Robustness, and (2) a well-designed Calibration Loss to precisely align visual signals with the causal generation of text. Experimental results demonstrate that with a comparable amount of training data and cost, P\textsuperscript{2}-DPO outperforms strong baselines that rely on costly human feedback on benchmarks. Furthermore, evaluations on Attention Region Fidelity (ARF) and image degradation scenarios validate the effectiveness of P\textsuperscript{2}-DPO in addressing perceptual bottleneck in attended regions and improving Visual Robustness against degraded inputs.