Mitigating Hallucination in Vision-Language Models through Barrier-Regulated Adaptive Closed-form Steering
作者: Soumyadeep Jana, Pulkit Mittal, Sanasam Ranbir Singh
分类: cs.CV, cs.AI
发布日期: 2026-05-28
💡 一句话要点
提出BRACS,通过自适应闭式引导缓解视觉语言模型中的幻觉问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 幻觉缓解 自适应引导 闭式解 注意力机制
📋 核心要点
- 现有视觉语言模型易产生幻觉,原因是视觉 grounding 随解码过程减弱,且缺乏明确的 grounding 目标。
- BRACS 框架通过监控模型注意力来测量视觉 grounding,仅在 grounding 恶化时进行自适应校正。
- 实验表明,BRACS 在幻觉基准测试中优于现有方法,且在通用多模态基准测试中表现相当甚至更好。
📝 摘要(中文)
大型视觉语言模型(LVLMs)经常产生输入图像中不存在的对象的幻觉,这主要是因为视觉基础随着解码的进行而减弱。现有的推理时缓解方法会修改整个生成过程中的logits或隐藏状态,但它们存在三个关键限制:缺乏明确的基础目标,即使模型已经很好地建立基础也会进行干预,以及使用不适应基础失败严重程度的固定校正强度。我们提出了BRACS(Barrier-Regulated Adaptive Closed-form Steering),这是一个无需训练的引导框架,通过barrier-regulated自适应闭式引导来解决这些问题。BRACS监控模型自身的注意力以测量视觉基础,并且仅在基础恶化时才对隐藏状态应用校正。校正更新以闭式形式解析计算,无需训练辅助网络或模型再训练。在LLaVA-1.5-7B和Qwen-VL-Chat上的实验表明,BRACS在幻觉基准测试中始终优于先前的方法,CHAIR$_s$降低了9.4个点,POPE F1提高了2.7个点,同时在四个通用多模态基准测试中匹配或提高了性能。BRACS仍然高效,以贪婪解码吞吐量的80%运行,并且平均比基线快1.3倍。
🔬 方法详解
问题定义:大型视觉语言模型在生成文本描述时,容易产生幻觉,即生成图像中不存在的对象。现有方法在推理时修改 logits 或隐藏状态,但存在缺乏明确 grounding 目标、过度干预和校正强度固定等问题。这些问题导致模型在已经表现良好的情况下仍被干预,且无法根据 grounding 失败的程度进行自适应调整。
核心思路:BRACS 的核心思路是仅在模型视觉 grounding 变差时才进行干预,并且干预的强度应该自适应地调整。通过监控模型的注意力机制来判断 grounding 的好坏,并使用闭式解来计算校正量,避免了额外的训练开销。这种方法旨在更精确地控制模型的生成过程,减少不必要的干预,从而降低幻觉的发生。
技术框架:BRACS 框架主要包含以下几个阶段:1) Grounding 监控:利用模型的注意力机制来评估视觉 grounding 的质量。具体来说,通过分析模型在生成每个 token 时对图像区域的关注程度来判断 grounding 是否良好。2) Barrier 调节:设置一个 barrier 来控制干预的时机。只有当 grounding 质量低于设定的阈值时,才会触发校正机制。3) 自适应闭式引导:使用闭式解来计算对隐藏状态的校正量。校正量的强度会根据 grounding 失败的程度进行自适应调整。4) 隐藏状态更新:将计算得到的校正量应用到模型的隐藏状态,从而引导模型生成更符合图像内容的文本。
关键创新:BRACS 的关键创新在于其自适应性和闭式解的运用。自适应性体现在它能够根据 grounding 的好坏动态调整干预的强度,避免了过度干预。闭式解的运用则避免了训练额外的辅助网络或重新训练模型,降低了计算成本。此外,BRACS 通过直接监控模型的注意力机制来评估 grounding 质量,提供了一种更直接和有效的 grounding 评估方法。
关键设计:BRACS 的关键设计包括:1) 注意力机制的利用:选择合适的注意力层来监控 grounding 质量,并设计有效的指标来量化 grounding 的好坏。2) Barrier 的设置:合理设置 barrier 的阈值,以平衡干预的频率和效果。3) 闭式解的推导:推导出能够有效校正隐藏状态的闭式解,并确保其计算效率。4) 自适应策略:设计自适应策略,根据 grounding 失败的程度动态调整校正量的强度。
🖼️ 关键图片
📊 实验亮点
BRACS 在 LLaVA-1.5-7B 和 Qwen-VL-Chat 模型上进行了实验,结果表明其在幻觉基准测试中显著优于现有方法。具体来说,BRACS 将 CHAIR$_s$ 指标降低了 9.4 个点,POPE F1 指标提高了 2.7 个点。同时,BRACS 在四个通用多模态基准测试中也取得了与现有方法相当甚至更好的性能。此外,BRACS 保持了较高的效率,运行速度达到贪婪解码的 80%,平均比基线方法快 1.3 倍。
🎯 应用场景
BRACS 技术可应用于各种需要可靠视觉语言理解的场景,例如:图像字幕生成、视觉问答、机器人导航、辅助驾驶等。通过减少幻觉,可以提高这些应用的可信度和安全性,例如在医疗影像诊断中,避免模型产生错误的诊断结果。未来,该技术可以进一步扩展到视频理解等更复杂的任务中。
📄 摘要(原文)
Large vision-language models (LVLMs) often hallucinate objects that are not present in the input image, largely because visual grounding weakens as decoding progresses. Existing inference-time mitigation methods modify logits or hidden states throughout generation, but they suffer from three key limitations: they lack an explicit grounding objective, intervene even when the model is already well-grounded, and use fixed correction strengths that do not adapt to the severity of grounding failure. We propose BRACS (Barrier-Regulated Adaptive Closed-form Steering), a training-free steering framework that addresses these issues through barrier-regulated adaptive closed-form steering. BRACS monitors the model's own attention to measure visual grounding and applies corrections to the hidden states only when grounding deteriorates. The corrective update is computed analytically in closed form, requiring no training of auxiliary networks or model retraining. Experiments on LLaVA-1.5-7B and Qwen-VL-Chat show that BRACS consistently outperforms prior methods on hallucination benchmarks, reducing CHAIR$_s$ by 9.4 points and improving POPE F1 by 2.7 points, while matching or improving performance on four general multimodal benchmarks. BRACS also remains efficient, operating at 80% of greedy decoding throughput and achieving 1.3 times higher speed on average than the baselines.