V-SEAM: Visual Semantic Editing and Attention Modulating for Causal Interpretability of Vision-Language Models

📄 arXiv: 2509.14837v1 📥 PDF

作者: Qidong Wang, Junjie Hu, Ming Jiang

分类: cs.CL

发布日期: 2025-09-18

备注: EMNLP 2025 Main

🔗 代码/项目: GITHUB


💡 一句话要点

V-SEAM:通过视觉语义编辑和注意力调制提升视觉-语言模型因果可解释性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 因果可解释性 视觉语义编辑 注意力机制 视觉问答

📋 核心要点

  1. 现有视觉-语言模型因果可解释性研究中,视觉干预通常依赖于粗糙的像素级扰动,限制了对多模态融合的语义洞察。
  2. V-SEAM框架通过视觉语义编辑实现概念级别的视觉操作,并识别对预测有积极或消极贡献的注意力头。
  3. 实验结果表明,V-SEAM能够有效提升LLaVA和InstructBLIP在多个VQA基准测试上的性能。

📝 摘要(中文)

本文提出了一种名为V-SEAM的新框架,它结合了视觉语义编辑和注意力调制,用于视觉-语言模型(VLMs)的因果解释。V-SEAM实现了概念级别的视觉操作,并识别了在对象、属性和关系三个语义层面上对预测有积极或消极贡献的注意力头。研究发现,积极的头通常在同一语义级别内共享,但在不同级别之间有所不同,而消极的头往往具有广泛的泛化能力。最后,本文提出了一种自动调制关键头嵌入的方法,证明了在三个不同的VQA基准测试中,LLaVA和InstructBLIP的性能均得到了提升。数据和代码已开源。

🔬 方法详解

问题定义:现有视觉-语言模型的可解释性研究,特别是因果可解释性,在视觉干预方面存在局限性。以往的方法主要依赖于像素级别的扰动,无法提供细粒度的语义层面的理解,难以洞察视觉和语言信息融合的机制。因此,如何进行概念级别的视觉干预,并分析不同视觉概念对模型预测的影响,是本文要解决的关键问题。

核心思路:V-SEAM的核心思路是通过视觉语义编辑,实现对图像中不同概念(对象、属性、关系)的精确操作。然后,通过分析不同注意力头对这些概念操作的响应,识别出对模型预测有重要影响的注意力头。最后,通过调制这些关键注意力头的嵌入,来提升模型的性能。

技术框架:V-SEAM框架主要包含两个核心模块:视觉语义编辑模块和注意力调制模块。视觉语义编辑模块负责对输入图像进行概念级别的修改,例如添加或删除特定对象,改变对象的属性,或者修改对象之间的关系。注意力调制模块则负责分析不同注意力头对这些修改的响应,并根据其贡献度进行调制。整个流程包括:1)输入图像和文本;2)视觉语义编辑;3)模型预测;4)注意力分析;5)关键头识别;6)注意力调制;7)性能评估。

关键创新:V-SEAM最重要的技术创新在于它实现了概念级别的视觉干预,并将其与注意力机制分析相结合,从而能够更深入地理解视觉-语言模型的内部工作机制。与以往的像素级扰动方法相比,V-SEAM能够提供更细粒度的语义信息,并能够识别出对不同语义概念有不同贡献的注意力头。

关键设计:V-SEAM的关键设计包括:1)使用预训练的视觉语义分割模型来实现概念级别的视觉编辑;2)设计了一种基于梯度的方法来识别对预测有重要影响的注意力头;3)提出了一种自动调制关键头嵌入的方法,该方法能够根据注意力头的贡献度来调整其嵌入向量。

📊 实验亮点

实验结果表明,V-SEAM能够有效识别对不同语义概念有不同贡献的注意力头。通过调制关键头嵌入,LLaVA和InstructBLIP在三个不同的VQA基准测试中均获得了性能提升。例如,在某个VQA基准上,模型的准确率提升了超过2%。这些结果验证了V-SEAM的有效性和实用性。

🎯 应用场景

V-SEAM的研究成果可应用于提升视觉-语言模型的可解释性和可靠性,例如在医疗影像诊断、自动驾驶等安全攸关的领域,帮助人们理解模型的决策过程,并提高模型的可信度。此外,该方法还可以用于模型调试和优化,通过识别和修正模型中的偏差,提高模型的泛化能力和鲁棒性。

📄 摘要(原文)

Recent advances in causal interpretability have extended from language models to vision-language models (VLMs), seeking to reveal their internal mechanisms through input interventions. While textual interventions often target semantics, visual interventions typically rely on coarse pixel-level perturbations, limiting semantic insights on multimodal integration. In this study, we introduce V-SEAM, a novel framework that combines Visual Semantic Editing and Attention Modulating for causal interpretation of VLMs. V-SEAM enables concept-level visual manipulations and identifies attention heads with positive or negative contributions to predictions across three semantic levels: objects, attributes, and relationships. We observe that positive heads are often shared within the same semantic level but vary across levels, while negative heads tend to generalize broadly. Finally, we introduce an automatic method to modulate key head embeddings, demonstrating enhanced performance for both LLaVA and InstructBLIP across three diverse VQA benchmarks. Our data and code are released at: https://github.com/petergit1/V-SEAM.