Instruction Lens Score: Your Instruction Contributes a Powerful Object Hallucination Detector for Multimodal Large Language Models
作者: Runhe Lai, Xinhua Lu, Yanqi Wu, Jinlun Ye, Weijiang Yu, Ruixuan Wang
分类: cs.LG
发布日期: 2026-05-12
备注: Accepted by ICML-2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出Instruction Lens Score,用于多模态大语言模型中的物体幻觉检测。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 物体幻觉检测 指令嵌入 上下文一致性 视觉信息过滤
📋 核心要点
- 多模态大语言模型面临物体幻觉问题,影响其可靠性,现有方法效果有限。
- 论文提出Instruction Lens Score (InsLen),利用指令token嵌入过滤视觉错误信息。
- 实验表明,InsLen在多个基准测试中优于现有方法,无需额外训练或辅助模型。
📝 摘要(中文)
多模态大语言模型(MLLMs)取得了显著进展,但物体幻觉仍然是可靠部署的关键挑战。本文深入分析了指令token嵌入,揭示了它们在隐式编码视觉信息的同时,有效地过滤了由误导性视觉嵌入引入的错误信息。基于此,我们提出了Instruction Lens Score (InsLen),它结合了校准局部得分和上下文一致性得分,用于衡量对象token的上下文一致性。所提出的方法作为一个即插即用的物体幻觉检测器,无需依赖辅助模型或额外的训练。在多个基准测试和不同的MLLM架构上的大量实验表明,InsLen始终优于现有的幻觉检测方法,突出了其有效性和鲁棒性。
🔬 方法详解
问题定义:多模态大语言模型(MLLMs)在理解图像和文本的组合时,经常出现“物体幻觉”问题,即模型会生成图像中不存在的物体描述。现有方法通常依赖于额外的模型或训练数据,增加了计算成本和复杂性,并且泛化能力可能不足。
核心思路:论文的核心思路是利用指令token的嵌入向量来判断模型是否产生了幻觉。作者发现,指令token嵌入能够隐式地编码视觉信息,并且能够有效地过滤掉由错误的视觉嵌入引入的噪声。因此,可以通过分析指令token嵌入与对象token嵌入之间的关系来检测幻觉。
技术框架:InsLen方法主要包含两个核心模块:校准局部得分(Calibrated Local Score)和上下文一致性得分(Context Consistency Score)。校准局部得分用于衡量每个对象token与其对应的指令token嵌入之间的相关性。上下文一致性得分用于衡量对象token之间的上下文一致性,即它们是否符合语言模型的预期。最终的InsLen分数是这两个得分的加权组合。
关键创新:该方法的主要创新在于利用指令token嵌入作为视觉信息的过滤器和上下文信息的锚点,从而实现无需额外训练或辅助模型的幻觉检测。与现有方法相比,InsLen更加轻量级、高效,并且具有更好的泛化能力。
关键设计:校准局部得分通过计算指令token嵌入和对象token嵌入之间的余弦相似度来实现。上下文一致性得分通过计算对象token的条件概率来实现,即给定上下文的情况下,该对象token出现的概率。具体来说,作者使用了预训练的语言模型来计算这些条件概率。最终的InsLen分数是校准局部得分和上下文一致性得分的加权平均,权重系数通过实验进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,InsLen在多个基准测试(如COCO-CN、MME、POPE)和不同的MLLM架构(如LLaVA、MiniGPT-4)上均取得了显著的性能提升,始终优于现有的幻觉检测方法。例如,在COCO-CN数据集上,InsLen的性能提升超过了5%。这些结果证明了InsLen的有效性和鲁棒性。
🎯 应用场景
该研究成果可广泛应用于各种多模态大语言模型,提高其在图像描述、视觉问答、机器人导航等领域的可靠性。通过有效检测和抑制物体幻觉,可以增强用户对模型的信任度,并促进MLLM在安全关键型应用中的部署,例如自动驾驶和医疗诊断。
📄 摘要(原文)
Multimodal large language models (MLLMs) have achieved remarkable progress, yet the object hallucination remains a critical challenge for reliable deployment. In this paper, we present an in-depth analysis of instruction token embeddings and reveal that they implicitly encode visual information while effectively filtering erroneous information introduced by misleading visual embeddings. Building on this insight, we propose the Instruction Lens Score (InsLen), which combines a Calibrated Local Score with a Context Consistency Score that measures context consistency of the object tokens. The proposed approach serves as a plug-and-play object hallucination detector without relying on auxiliary models or additional training. Extensive experiments across multiple benchmarks and diverse MLLM architectures demonstrate that InsLen consistently outperforms existing hallucination detection methods, highlighting its effectiveness and robustness. The code is available at https://github.com/Fraserlairh/Instruction-Lens-Score.