Risk-aware Selective Prompting for Hallucination Mitigation in Large Vision-Language Models

📄 arXiv: 2605.28123v1 📥 PDF

作者: Yuang Huang, Yafeng Zhang, Yu Zilan

分类: cs.CL

发布日期: 2026-05-27

备注: 7 pages, 1 figures, submitted to ACL ARR 2026 May (EMNLP)


💡 一句话要点

提出风险感知选择性Prompt方法,缓解大型视觉语言模型中的幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 幻觉缓解 Prompt工程 不确定性估计 风险感知

📋 核心要点

  1. 现有基于Prompt的验证方法在缓解LVLM幻觉时,效果不稳定,对简单输入甚至可能造成损害。
  2. 提出风险感知选择性Prompt(RSP),利用预生成的不确定性信号,有选择地触发验证Prompt。
  3. RSP在缓解始终开启Prompt的性能下降的同时,保持了基线性能,并发现不同架构下有效的选择信号存在差异。

📝 摘要(中文)

基于Prompt的验证被广泛用于缓解大型视觉语言模型(LVLMs)中的幻觉,但其有效性仍不明确。本文系统地研究了两种代表性LVLM架构和幻觉基准上的验证Prompt,发现它是一种具有风险的干预手段:其修正效果随输入难度的增加而增加,但新引入的错误在不同难度级别上持续存在。因此,始终开启的Prompt在困难输入上有所帮助,但在简单输入上几乎没有益处,甚至可能有害。分析表明,这种行为与保守的输出转移有关。验证Prompt将注意力从视觉token重新分配到指令token,并诱导一种在neutral-prompt控制中不存在的独特中间层熵模式,表明是指令条件下的注意力重新分配,而不是统一改进的视觉基础。受这种输入相关风险的启发,本文提出了一种风险感知选择性Prompt(RSP),这是一种无需训练的方法,它使用预生成的不确定性信号来选择性地触发验证。RSP减轻了始终开启Prompt的性能下降,同时保持了基线性能,并揭示了有效的选择信号因架构而异。

🔬 方法详解

问题定义:大型视觉语言模型(LVLMs)容易产生幻觉,即生成与输入图像不符或不真实的文本内容。基于Prompt的验证是一种常用的缓解幻觉的方法,但现有研究表明,这种方法并非总是有效,甚至可能在某些情况下引入新的错误。因此,如何有效地利用Prompt来减少幻觉,同时避免引入新的问题,是一个重要的研究问题。

核心思路:本文的核心思路是,基于输入的不确定性来选择性地应用验证Prompt。作者观察到,始终开启的验证Prompt在困难输入上有效,但在简单输入上可能有害。因此,通过预测生成结果的不确定性,只在需要时才应用验证Prompt,可以避免不必要的性能损失,并提高整体的幻觉缓解效果。

技术框架:RSP方法主要包含以下几个阶段:1) 使用LVLM生成初始文本描述;2) 计算生成结果的不确定性信号;3) 基于不确定性信号,决定是否应用验证Prompt;4) 如果应用验证Prompt,则使用LVLM生成修正后的文本描述。整个过程无需额外的训练,是一种即插即用的方法。

关键创新:RSP的关键创新在于,它将Prompt的应用与输入的不确定性联系起来,实现了Prompt的自适应选择。与传统的始终开启或关闭Prompt的方法相比,RSP能够更有效地利用Prompt的优势,同时避免其潜在的风险。此外,作者还发现,不同LVLM架构下,有效的选择信号可能不同,这为未来的研究提供了新的方向。

关键设计:RSP的关键设计在于不确定性信号的选取。论文中使用了预生成的不确定性信号来触发验证Prompt。具体的实现细节和选择信号的类型(例如,生成概率的熵)可能因不同的LVLM架构而异。此外,如何设置不确定性阈值,以决定何时应用验证Prompt,也是一个重要的设计参数。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,RSP能够有效地缓解LVLM的幻觉问题,同时避免了始终开启Prompt带来的性能下降。RSP在多个幻觉基准测试中取得了显著的性能提升,证明了其有效性。此外,研究还发现,不同LVLM架构下,有效的选择信号存在差异,这为未来的研究提供了新的方向。

🎯 应用场景

该研究成果可应用于各种需要可靠视觉信息理解的场景,例如自动驾驶、智能客服、医疗诊断等。通过降低LVLM的幻觉,可以提高系统的安全性和可靠性,减少错误决策的风险。此外,该方法无需训练,易于部署,具有广泛的应用前景。未来,可以进一步研究如何将RSP与其他幻觉缓解技术相结合,以获得更好的效果。

📄 摘要(原文)

Prompt-based verification is widely used to mitigate hallucinations in large vision-language models (LVLMs), yet when it helps remains poorly understood. We systematically study verification prompting across two representative LVLM architectures and hallucination benchmarks, and find that it is a risk-bearing intervention: its corrections increase with input difficulty, while newly introduced errors persist across difficulty levels. As a result, always-on prompting helps on hard inputs but offers little benefit -- and can harm -- easier ones. Our analysis further shows that this behavior is associated with a conservative output shift. Verification prompts redistribute attention from visual tokens toward instruction tokens and induce a distinct middle-layer entropy pattern absent in a neutral-prompt control, suggesting instruction-conditioned attention redistribution rather than uniformly improved visual grounding. Motivated by this input-dependent risk, we propose Risk-aware Selective Prompting (RSP), a training-free approach that uses pre-generation uncertainty signals to trigger verification selectively. RSP mitigates the degradation of always-on prompting while preserving baseline performance, and reveals that effective selection signals vary across architectures.