Kestrel: Grounding Self-Refinement for LVLM Hallucination Mitigation

📄 arXiv: 2603.16664v1 📥 PDF

作者: Jiawei Mao, Hardy Chen, Haoqin Tu, Yuhan Wang, Letian Zhang, Zeyu Zheng, Huaxiu Yao, Zirui Wang, Cihang Xie, Yuyin Zhou

分类: cs.CV, cs.AI

发布日期: 2026-03-17

备注: 16 pages, 11 figures, 5 tables


💡 一句话要点

Kestrel:提出基于视觉 grounding 和自精炼的 LVLM 幻觉缓解框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 幻觉缓解 视觉 grounding 自精炼 多模态学习

📋 核心要点

  1. 现有LVLM在多模态任务中易产生幻觉,限制了应用,且重新训练成本高昂,免训练方法收益有限且缺乏可解释性。
  2. Kestrel框架通过显式视觉 grounding 代理和证据验证的自精炼机制,有效缓解LVLM的幻觉问题。
  3. 实验表明,Kestrel在多个幻觉基准测试中显著优于现有方法,并提供透明的验证过程,便于诊断和分析。

📝 摘要(中文)

大型视觉语言模型(LVLMs)的能力日益增强,但仍然容易在多模态任务中产生幻觉,这严重限制了它们的部署。由于训练这些LVLMs以避免幻觉对于更大的模型来说成本过高,因此免训练方法为此问题提供了一种廉价而灵活的解决方案,但现有基于解码或工具使用的方法通常带来有限的收益和/或较弱的可解释性。我们提出了Kestrel,一个用于LVLM幻觉缓解的免训练框架,它结合了一个显式的视觉 grounding 代理和一个证据验证的自精炼机制。具体来说,Kestrel首先收集显式的视觉证据,并将工具输出转换为可重用和结构化的文本证据。其次,为了充分利用这些证据,Kestrel通过LVLM判断器验证它们以进行证据检查,然后基于验证的证据迭代地自精炼答案,以降低过度校正的风险。大量的实验表明,Kestrel在幻觉基准测试中优于强大的基线(例如,在Qwen3-VL上,POPE平均提高+3.31%,MME-Hallucination平均提高+28.34%),同时为幻觉诊断和分析提供透明的验证跟踪——例如,集成的自精炼模块和 grounding 代理平均贡献了POPE上+2.0%的增益。

🔬 方法详解

问题定义:论文旨在解决大型视觉语言模型(LVLMs)在多模态任务中产生幻觉的问题。现有方法,如基于解码或工具使用的方法,在缓解幻觉方面的效果有限,且缺乏足够的可解释性,难以诊断和分析幻觉产生的原因。此外,针对大型模型重新训练以减少幻觉的成本非常高昂。

核心思路:Kestrel的核心思路是结合显式的视觉 grounding 和证据验证的自精炼机制。通过显式地提取和利用视觉证据,并对这些证据进行验证,模型可以更可靠地生成答案,从而减少幻觉的产生。自精炼机制则允许模型迭代地改进答案,进一步提高准确性。

技术框架:Kestrel框架包含以下主要模块:1) 视觉 grounding 代理:负责收集显式的视觉证据,并将工具输出转换为可重用和结构化的文本证据。2) LVLM 判断器:用于验证收集到的证据,判断其是否可靠。3) 自精炼模块:基于验证后的证据,迭代地改进答案,降低过度校正的风险。整个流程首先通过 grounding 代理提取视觉证据,然后由 LVLM 判断器进行验证,最后自精炼模块基于验证后的证据生成最终答案。

关键创新:Kestrel的关键创新在于结合了显式的视觉 grounding 和证据验证的自精炼机制。与现有方法相比,Kestrel 不仅利用视觉信息,还通过 LVLM 判断器对证据进行验证,确保证据的可靠性。自精炼机制则允许模型迭代地改进答案,进一步提高准确性。这种结合使得 Kestrel 能够更有效地缓解 LVLM 的幻觉问题。

关键设计:Kestrel 的关键设计包括:1) 如何设计视觉 grounding 代理以有效地提取视觉证据;2) 如何设计 LVLM 判断器以准确地验证证据的可靠性;3) 如何设计自精炼模块以迭代地改进答案,同时避免过度校正。具体的参数设置、损失函数和网络结构等技术细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Kestrel在多个幻觉基准测试中显著优于现有方法。例如,在Qwen3-VL模型上,Kestrel在POPE数据集上平均提高了3.31%,在MME-Hallucination数据集上平均提高了28.34%。此外,实验还表明,集成的自精炼模块和 grounding 代理都对性能提升做出了贡献,在POPE数据集上平均贡献了2.0%的增益。

🎯 应用场景

Kestrel框架可应用于各种需要可靠视觉信息的多模态任务,例如图像描述、视觉问答、机器人导航等。通过缓解LVLM的幻觉问题,Kestrel可以提高这些任务的准确性和可靠性,从而促进LVLM在实际场景中的应用。该研究对于提升AI系统的安全性和可信度具有重要意义。

📄 摘要(原文)

Large vision-language models (LVLMs) have become increasingly strong but remain prone to hallucinations in multimodal tasks, which significantly narrows their deployment. As training these LVLMs to avoid hallucinations becomes prohibitively expensive for larger models, training-free methods offer a cheap and flexible solution to this problem, yet existing approaches based on decoding or tool use often bring limited gains and/or weak interpretability. We propose Kestrel, a training-free framework for LVLM hallucination mitigation that combines an explicit visual-grounding agent with evidence-verified self-refinement mechanism. In detail, Kestrel first collects explicit visual evidence and converts tool outputs into reusable and structured textual evidence. Second, to take full advantage of these evidence, Kestrel verifies them via an LVLM judge for evidence checking, then iteratively self-refine answers based on verified evidence to reduce the risk of over-correction. Extensive experiments show that Kestrel improves performance over strong baselines across hallucination benchmarks (e.g., average +3.31% on POPE and +28.34 on MME-Hallucination with Qwen3-VL), while providing transparent verification traces for hallucination diagnosis and analysis -- e.g., both the integrated self-refinement module and grounding agent contributing an average +2.0% gain on POPE.