When Seeing Overrides Knowing: Disentangling Knowledge Conflicts in Vision-Language Models

📄 arXiv: 2507.13868v1 📥 PDF

作者: Francesco Ortu, Zhijing Jin, Diego Doimo, Alberto Cazzaniga

分类: cs.CV, cs.AI

发布日期: 2025-07-18


💡 一句话要点

提出多模态对抗查询数据集,解析视觉语言模型中知识冲突的解决机制。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 知识冲突 多模态学习 注意力机制 对抗查询 可解释性 常识推理

📋 核心要点

  1. 视觉语言模型在处理复杂任务时面临内部知识与视觉信息冲突的问题,现有方法对这种冲突的解决机制缺乏深入理解。
  2. 论文提出了一种多模态对抗查询数据集,用于分析和干预视觉语言模型解决知识冲突的行为,核心在于识别和操控关键的注意力头。
  3. 实验结果表明,通过修改特定的注意力头,可以有效引导模型倾向于内部知识或视觉输入,并且这些注意力头能精确定位驱动视觉覆盖的图像区域。

📝 摘要(中文)

视觉语言模型(VLMs)越来越多地利用各种知识来源来处理复杂的任务,但经常遇到其内部参数知识与外部信息之间的冲突。知识冲突可能导致幻觉和不可靠的响应,但控制这些交互的机制仍然未知。为了解决这个差距,我们通过引入一个多模态对抗查询数据集来分析VLMs解决跨模态冲突的机制,该数据集故意与内部常识知识相矛盾。我们通过logit检查定位了一小组控制冲突的注意力头。此外,通过修改这些注意力头,我们可以引导模型倾向于其内部知识或视觉输入。最后,我们表明,来自这些注意力头的注意力能够精确定位驱动视觉覆盖的局部图像区域,在精度上优于基于梯度的归因方法。

🔬 方法详解

问题定义:视觉语言模型在处理需要结合常识知识和视觉信息的任务时,经常会遇到知识冲突。例如,模型可能知道“猫通常是毛茸茸的”,但如果输入图像显示一只剃了毛的猫,模型应该如何响应?现有方法缺乏对这种冲突解决机制的深入理解,导致模型产生幻觉或不可靠的输出。

核心思路:论文的核心思路是通过构建一个包含多模态对抗查询的数据集,来系统性地研究视觉语言模型如何解决知识冲突。该数据集包含故意与模型内部常识知识相矛盾的视觉输入,从而迫使模型在视觉信息和内部知识之间做出选择。通过分析模型在这些对抗性示例上的行为,可以揭示其解决冲突的机制。

技术框架:论文的技术框架主要包括以下几个步骤:1) 构建多模态对抗查询数据集;2) 使用该数据集评估视觉语言模型的知识冲突解决能力;3) 通过logit检查定位控制冲突的关键注意力头;4) 通过修改这些注意力头,引导模型倾向于内部知识或视觉输入;5) 使用注意力机制可视化驱动视觉覆盖的图像区域,并与基于梯度的归因方法进行比较。

关键创新:论文的关键创新在于:1) 提出了一个用于研究视觉语言模型知识冲突解决机制的多模态对抗查询数据集;2) 发现并定位了控制知识冲突的关键注意力头;3) 证明了通过修改这些注意力头可以有效引导模型的行为,使其倾向于内部知识或视觉输入;4) 证明了注意力机制在定位驱动视觉覆盖的图像区域方面优于基于梯度的归因方法。

关键设计:论文的关键设计包括:1) 多模态对抗查询数据集的构建,需要精心设计视觉输入,使其与模型的内部常识知识相矛盾;2) 使用logit检查来定位控制冲突的关键注意力头,这需要对模型的内部状态进行细致的分析;3) 通过修改注意力头的权重来引导模型的行为,这需要对注意力机制的运作方式有深入的理解;4) 使用注意力权重来可视化驱动视觉覆盖的图像区域,并与基于梯度的归因方法进行比较,以验证注意力机制的有效性。具体的参数设置、损失函数、网络结构等细节在论文中未明确说明,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,通过修改特定的注意力头,可以有效引导模型倾向于内部知识或视觉输入。此外,论文还证明了注意力机制在定位驱动视觉覆盖的图像区域方面优于基于梯度的归因方法,表明注意力机制能够更准确地反映模型对视觉信息的依赖程度。具体的性能数据和提升幅度在摘要中未给出,属于未知信息。

🎯 应用场景

该研究成果可应用于提升视觉语言模型的可靠性和可信度,减少幻觉现象。例如,在医疗诊断、自动驾驶等安全攸关的应用中,确保模型能够正确处理知识冲突至关重要。此外,该研究还可以帮助我们更好地理解视觉语言模型的内部运作机制,为开发更强大的多模态智能系统奠定基础。

📄 摘要(原文)

Vision-language models (VLMs) increasingly leverage diverse knowledge sources to address complex tasks, often encountering conflicts between their internal parametric knowledge and external information. Knowledge conflicts can result in hallucinations and unreliable responses, but the mechanisms governing such interactions remain unknown. To address this gap, we analyze the mechanisms that VLMs use to resolve cross-modal conflicts by introducing a dataset of multimodal counterfactual queries that deliberately contradict internal commonsense knowledge. We localize with logit inspection a small set of heads that control the conflict. Moreover, by modifying these heads, we can steer the model towards its internal knowledge or the visual inputs. Finally, we show that attention from such heads pinpoints localized image regions driving visual overrides, outperforming gradient-based attribution in precision.