Mitigating Multimodal Hallucination via Phase-wise Self-reward

作者: Yu Zhang, Chuyang Sun, Kehai Chen, Xuefeng Bai, Yang Xiang, Min Zhang

分类: cs.CV, cs.CL

发布日期: 2026-04-20

备注: Self-reward for vision hallucination mitigation

💡 一句话要点

提出PSRD框架，通过阶段性自奖励机制缓解大型视觉语言模型中的多模态幻觉问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态幻觉 视觉语言模型 自奖励学习 阶段性解码 奖励模型蒸馏

📋 核心要点

现有LVLM缓解幻觉的方法依赖大规模标注数据或静态后处理，存在计算开销大和忽略幻觉动态性的问题。
PSRD框架通过阶段性自奖励机制，在推理时动态缓解幻觉，无需外部监督，并利用轻量级奖励模型降低计算成本。
实验表明，PSRD显著降低了LLaVA-1.5-7B的幻觉率，并在多个基准测试中优于现有方法，实现了性能与效率的平衡。

📝 摘要（中文）

大型视觉语言模型(LVLMs)在视觉幻觉方面仍然面临挑战，即生成的回复与视觉输入不一致。现有方法要么依赖大规模标注数据进行微调，计算开销巨大，要么采用静态的后处理策略，忽略了幻觉产生的动态特性。为了解决这些问题，我们引入了一种新的自奖励框架，可以在推理时动态地缓解幻觉，而无需外部监督。经验研究表明，视觉幻觉表现出阶段性的动态模式，在每个语义阶段的开始时达到峰值。基于这些见解，我们提出了PSRD（阶段性自奖励解码），用于在线幻觉校正，由阶段性的自奖励信号引导。为了降低解码过程中重复自评估的成本，我们将来自LVLM的幻觉指导信号提炼成一个轻量级的奖励模型。该奖励模型随后为解码过程中的有针对性的干预提供即时指导，从而实现精确的幻觉抑制。所提出的PSRD将LLaVA-1.5-7B的幻觉率降低了50.0%，并且在四个LVLM的五个幻觉评估基准上始终优于现有的后处理方法。进一步的分析证实，PSRD有效地缓解了幻觉传播，并在强大的性能和推理效率之间实现了高度可控的权衡。

🔬 方法详解

问题定义：论文旨在解决大型视觉语言模型（LVLMs）中存在的视觉幻觉问题，即模型生成的文本描述与实际图像内容不符。现有方法，如微调或后处理，存在计算资源消耗大、无法捕捉幻觉动态变化等痛点。

核心思路：论文的核心思路是利用自奖励机制，在模型推理过程中动态地检测和纠正幻觉。通过观察发现幻觉具有阶段性特征，即在每个语义阶段的开始时更容易出现。因此，设计阶段性的自奖励信号来引导模型生成更准确的描述。

技术框架：PSRD框架包含以下主要阶段：1) 幻觉检测：利用LVLM生成文本描述；2) 自奖励：根据生成的文本和图像，计算阶段性的自奖励信号，评估幻觉程度；3) 奖励模型蒸馏：将LVLM的幻觉指导信号提炼到一个轻量级的奖励模型中，降低计算成本；4) 解码干预：利用奖励模型提供的指导，在解码过程中有针对性地抑制幻觉。

关键创新：该方法的主要创新在于：1) 提出了阶段性自奖励机制，能够动态地检测和纠正幻觉；2) 通过奖励模型蒸馏，降低了计算成本，使得在线幻觉校正成为可能；3) 无需外部监督，完全依赖模型自身进行幻觉缓解。

关键设计：奖励模型的设计是关键。论文通过蒸馏LVLM的幻觉指导信号来训练奖励模型，使其能够快速准确地评估幻觉程度。具体实现细节（如奖励函数的定义、蒸馏方法、网络结构等）在论文中进行了详细描述。此外，解码干预策略也至关重要，需要平衡性能和效率，避免过度干预导致生成质量下降。

🖼️ 关键图片

📊 实验亮点

PSRD框架在LLaVA-1.5-7B模型上实现了50.0%的幻觉率降低，并在五个幻觉评估基准上始终优于现有的后处理方法。实验结果表明，PSRD不仅能够有效缓解幻觉，还能在性能和推理效率之间实现可控的权衡。此外，分析证实PSRD能够有效抑制幻觉的传播。

🎯 应用场景

该研究成果可应用于各种需要可靠视觉信息理解的场景，例如智能客服、图像编辑、自动驾驶、医疗诊断等。通过减少视觉幻觉，可以提高LVLM在这些应用中的准确性和可靠性，从而提升用户体验和决策质量。未来，该方法可以进一步扩展到其他多模态任务，例如视频理解和语音识别。

📄 摘要（原文）

Large Vision-Language Models (LVLMs) still struggle with vision hallucination, where generated responses are inconsistent with the visual input. Existing methods either rely on large-scale annotated data for fine-tuning, which incurs massive computational overhead, or employ static post-hoc strategies that overlook the dynamic nature of hallucination emergence. To address these, we introduce a new self-rewarding framework, enabling dynamic hallucination mitigation at inference time without external supervision. On the empirical side, we reveal that visual hallucination exhibits phase-wise dynamic patterns, peaking at the onset of each semantic phase. Drawing on these insights, we propose \textbf{PSRD} (\textbf{Phase-wise \textbf{S}elf-\textbf{R}eward \textbf{D}ecoding) for online hallucination correction guided by phase-wise self-reward signals. To reduce the cost of repeated self-evaluation during decoding, we distill the hallucination guidance signal from LVLMs into a lightweight reward model. The reward model subsequently provides on-the-fly guidance for targeted intervention during the decoding process, enabling precise hallucination suppression. The proposed PSRD significantly reduces the hallucination rate of LLaVA-1.5-7B by 50.0% and consistently outperforms existing post-hoc methods across five hallucination evaluation benchmarks for four LVLMs. Further analysis confirms that PSRD effectively mitigates hallucination propagation and achieves a highly controllable trade-off between strong performance and inference efficiency.

Mitigating Multimodal Hallucination via Phase-wise Self-reward

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理