Mitigating Multimodal Hallucination via Phase-wise Self-reward

📄 arXiv: 2604.17982v1 📥 PDF

作者: Yu Zhang, Chuyang Sun, Kehai Chen, Xuefeng Bai, Yang Xiang, Min Zhang

分类: cs.CV, cs.CL

发布日期: 2026-04-20

备注: Self-reward for vision hallucination mitigation


💡 一句话要点

提出PSRD框架,通过阶段性自奖励机制缓解大型视觉语言模型中的多模态幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态幻觉 视觉语言模型 自奖励学习 阶段性解码 奖励模型蒸馏

📋 核心要点

  1. 现有LVLM缓解幻觉的方法依赖大规模标注数据或静态后处理,存在计算开销大和忽略幻觉动态性的问题。
  2. PSRD框架通过阶段性自奖励机制,在推理时动态缓解幻觉,无需外部监督,并利用轻量级奖励模型降低计算成本。
  3. 实验表明,PSRD显著降低了LLaVA-1.5-7B的幻觉率,并在多个基准测试中优于现有方法,实现了性能与效率的平衡。

📝 摘要(中文)

大型视觉语言模型(LVLMs)在视觉幻觉方面仍然面临挑战,即生成的回复与视觉输入不一致。现有方法要么依赖大规模标注数据进行微调,计算开销巨大,要么采用静态的后处理策略,忽略了幻觉产生的动态特性。为了解决这些问题,我们引入了一种新的自奖励框架,可以在推理时动态地缓解幻觉,而无需外部监督。经验研究表明,视觉幻觉表现出阶段性的动态模式,在每个语义阶段的开始时达到峰值。基于这些见解,我们提出了PSRD(阶段性自奖励解码),用于在线幻觉校正,由阶段性的自奖励信号引导。为了降低解码过程中重复自评估的成本,我们将来自LVLM的幻觉指导信号提炼成一个轻量级的奖励模型。该奖励模型随后为解码过程中的有针对性的干预提供即时指导,从而实现精确的幻觉抑制。所提出的PSRD将LLaVA-1.5-7B的幻觉率降低了50.0%,并且在四个LVLM的五个幻觉评估基准上始终优于现有的后处理方法。进一步的分析证实,PSRD有效地缓解了幻觉传播,并在强大的性能和推理效率之间实现了高度可控的权衡。

🔬 方法详解

问题定义:论文旨在解决大型视觉语言模型(LVLMs)中存在的视觉幻觉问题,即模型生成的文本描述与实际图像内容不符。现有方法,如微调或后处理,存在计算资源消耗大、无法捕捉幻觉动态变化等痛点。

核心思路:论文的核心思路是利用自奖励机制,在模型推理过程中动态地检测和纠正幻觉。通过观察发现幻觉具有阶段性特征,即在每个语义阶段的开始时更容易出现。因此,设计阶段性的自奖励信号来引导模型生成更准确的描述。

技术框架:PSRD框架包含以下主要阶段:1) 幻觉检测:利用LVLM生成文本描述;2) 自奖励:根据生成的文本和图像,计算阶段性的自奖励信号,评估幻觉程度;3) 奖励模型蒸馏:将LVLM的幻觉指导信号提炼到一个轻量级的奖励模型中,降低计算成本;4) 解码干预:利用奖励模型提供的指导,在解码过程中有针对性地抑制幻觉。

关键创新:该方法的主要创新在于:1) 提出了阶段性自奖励机制,能够动态地检测和纠正幻觉;2) 通过奖励模型蒸馏,降低了计算成本,使得在线幻觉校正成为可能;3) 无需外部监督,完全依赖模型自身进行幻觉缓解。

关键设计:奖励模型的设计是关键。论文通过蒸馏LVLM的幻觉指导信号来训练奖励模型,使其能够快速准确地评估幻觉程度。具体实现细节(如奖励函数的定义、蒸馏方法、网络结构等)在论文中进行了详细描述。此外,解码干预策略也至关重要,需要平衡性能和效率,避免过度干预导致生成质量下降。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PSRD框架在LLaVA-1.5-7B模型上实现了50.0%的幻觉率降低,并在五个幻觉评估基准上始终优于现有的后处理方法。实验结果表明,PSRD不仅能够有效缓解幻觉,还能在性能和推理效率之间实现可控的权衡。此外,分析证实PSRD能够有效抑制幻觉的传播。

🎯 应用场景

该研究成果可应用于各种需要可靠视觉信息理解的场景,例如智能客服、图像编辑、自动驾驶、医疗诊断等。通过减少视觉幻觉,可以提高LVLM在这些应用中的准确性和可靠性,从而提升用户体验和决策质量。未来,该方法可以进一步扩展到其他多模态任务,例如视频理解和语音识别。

📄 摘要(原文)

Large Vision-Language Models (LVLMs) still struggle with vision hallucination, where generated responses are inconsistent with the visual input. Existing methods either rely on large-scale annotated data for fine-tuning, which incurs massive computational overhead, or employ static post-hoc strategies that overlook the dynamic nature of hallucination emergence. To address these, we introduce a new self-rewarding framework, enabling dynamic hallucination mitigation at inference time without external supervision. On the empirical side, we reveal that visual hallucination exhibits phase-wise dynamic patterns, peaking at the onset of each semantic phase. Drawing on these insights, we propose \textbf{PSRD} (\textbf{Phase-wise \textbf{S}elf-\textbf{R}eward \textbf{D}ecoding) for online hallucination correction guided by phase-wise self-reward signals. To reduce the cost of repeated self-evaluation during decoding, we distill the hallucination guidance signal from LVLMs into a lightweight reward model. The reward model subsequently provides on-the-fly guidance for targeted intervention during the decoding process, enabling precise hallucination suppression. The proposed PSRD significantly reduces the hallucination rate of LLaVA-1.5-7B by 50.0% and consistently outperforms existing post-hoc methods across five hallucination evaluation benchmarks for four LVLMs. Further analysis confirms that PSRD effectively mitigates hallucination propagation and achieves a highly controllable trade-off between strong performance and inference efficiency.