Risk-aware Selective Prompting for Hallucination Mitigation in Large Vision-Language Models

作者: Yuang Huang, Yafeng Zhang, Yu Zilan

分类: cs.CL

发布日期: 2026-05-27

备注: 7 pages, 1 figures, submitted to ACL ARR 2026 May (EMNLP)

💡 一句话要点

提出风险感知选择性Prompt方法，缓解大型视觉语言模型中的幻觉问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 幻觉缓解 Prompt工程 不确定性估计 风险感知

📋 核心要点

现有基于Prompt的验证方法在缓解LVLM幻觉时，效果不稳定，对简单输入甚至可能造成损害。
提出风险感知选择性Prompt（RSP），利用预生成的不确定性信号，有选择地触发验证Prompt。
RSP在缓解始终开启Prompt的性能下降的同时，保持了基线性能，并发现不同架构下有效的选择信号存在差异。

📝 摘要（中文）

基于Prompt的验证被广泛用于缓解大型视觉语言模型(LVLMs)中的幻觉，但其有效性仍不明确。本文系统地研究了两种代表性LVLM架构和幻觉基准上的验证Prompt，发现它是一种具有风险的干预手段：其修正效果随输入难度的增加而增加，但新引入的错误在不同难度级别上持续存在。因此，始终开启的Prompt在困难输入上有所帮助，但在简单输入上几乎没有益处，甚至可能有害。分析表明，这种行为与保守的输出转移有关。验证Prompt将注意力从视觉token重新分配到指令token，并诱导一种在neutral-prompt控制中不存在的独特中间层熵模式，表明是指令条件下的注意力重新分配，而不是统一改进的视觉基础。受这种输入相关风险的启发，本文提出了一种风险感知选择性Prompt(RSP)，这是一种无需训练的方法，它使用预生成的不确定性信号来选择性地触发验证。RSP减轻了始终开启Prompt的性能下降，同时保持了基线性能，并揭示了有效的选择信号因架构而异。

🔬 方法详解

问题定义：大型视觉语言模型（LVLMs）容易产生幻觉，即生成与输入图像不符或不真实的文本内容。基于Prompt的验证是一种常用的缓解幻觉的方法，但现有研究表明，这种方法并非总是有效，甚至可能在某些情况下引入新的错误。因此，如何有效地利用Prompt来减少幻觉，同时避免引入新的问题，是一个重要的研究问题。

核心思路：本文的核心思路是，基于输入的不确定性来选择性地应用验证Prompt。作者观察到，始终开启的验证Prompt在困难输入上有效，但在简单输入上可能有害。因此，通过预测生成结果的不确定性，只在需要时才应用验证Prompt，可以避免不必要的性能损失，并提高整体的幻觉缓解效果。

技术框架：RSP方法主要包含以下几个阶段：1) 使用LVLM生成初始文本描述；2) 计算生成结果的不确定性信号；3) 基于不确定性信号，决定是否应用验证Prompt；4) 如果应用验证Prompt，则使用LVLM生成修正后的文本描述。整个过程无需额外的训练，是一种即插即用的方法。

关键创新：RSP的关键创新在于，它将Prompt的应用与输入的不确定性联系起来，实现了Prompt的自适应选择。与传统的始终开启或关闭Prompt的方法相比，RSP能够更有效地利用Prompt的优势，同时避免其潜在的风险。此外，作者还发现，不同LVLM架构下，有效的选择信号可能不同，这为未来的研究提供了新的方向。

关键设计：RSP的关键设计在于不确定性信号的选取。论文中使用了预生成的不确定性信号来触发验证Prompt。具体的实现细节和选择信号的类型（例如，生成概率的熵）可能因不同的LVLM架构而异。此外，如何设置不确定性阈值，以决定何时应用验证Prompt，也是一个重要的设计参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RSP能够有效地缓解LVLM的幻觉问题，同时避免了始终开启Prompt带来的性能下降。RSP在多个幻觉基准测试中取得了显著的性能提升，证明了其有效性。此外，研究还发现，不同LVLM架构下，有效的选择信号存在差异，这为未来的研究提供了新的方向。

🎯 应用场景

该研究成果可应用于各种需要可靠视觉信息理解的场景，例如自动驾驶、智能客服、医疗诊断等。通过降低LVLM的幻觉，可以提高系统的安全性和可靠性，减少错误决策的风险。此外，该方法无需训练，易于部署，具有广泛的应用前景。未来，可以进一步研究如何将RSP与其他幻觉缓解技术相结合，以获得更好的效果。

📄 摘要（原文）

Prompt-based verification is widely used to mitigate hallucinations in large vision-language models (LVLMs), yet when it helps remains poorly understood. We systematically study verification prompting across two representative LVLM architectures and hallucination benchmarks, and find that it is a risk-bearing intervention: its corrections increase with input difficulty, while newly introduced errors persist across difficulty levels. As a result, always-on prompting helps on hard inputs but offers little benefit -- and can harm -- easier ones. Our analysis further shows that this behavior is associated with a conservative output shift. Verification prompts redistribute attention from visual tokens toward instruction tokens and induce a distinct middle-layer entropy pattern absent in a neutral-prompt control, suggesting instruction-conditioned attention redistribution rather than uniformly improved visual grounding. Motivated by this input-dependent risk, we propose Risk-aware Selective Prompting (RSP), a training-free approach that uses pre-generation uncertainty signals to trigger verification selectively. RSP mitigates the degradation of always-on prompting while preserving baseline performance, and reveals that effective selection signals vary across architectures.

Risk-aware Selective Prompting for Hallucination Mitigation in Large Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理