Explaining Similarity in Vision-Language Encoders with Weighted Banzhaf Interactions

📄 arXiv: 2508.05430v2 📥 PDF

作者: Hubert Baniecki, Maximilian Muschalik, Fabian Fumagalli, Barbara Hammer, Eyke Hüllermeier, Przemyslaw Biecek

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-08-07 (更新: 2025-11-18)

备注: NeurIPS 2025. Code: https://github.com/hbaniecki/fixlip


💡 一句话要点

提出FIxLIP,利用加权Banzhaf交互解释视觉-语言编码器中的相似性,优于一阶方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 可解释性 交互解释 Banzhaf交互 多模态学习

📋 核心要点

  1. 现有视觉-语言模型解释方法主要关注一阶属性,忽略了跨模态交互,导致解释不完整。
  2. FIxLIP利用加权Banzhaf交互指标,基于博弈论分解视觉-语言编码器的相似性,更灵活高效。
  3. 实验表明,FIxLIP等二阶方法在MS COCO和ImageNet-1k上优于一阶方法,并可用于模型比较。

📝 摘要(中文)

语言-图像预训练(LIP)使得视觉-语言模型能够进行零样本分类、定位、多模态检索和语义理解。现有的解释方法主要通过显著性图来可视化输入图像-文本对对模型相似性输出的重要性,但这些方法仅能捕捉一阶属性,忽略了编码器中固有的复杂跨模态交互。本文提出了一种忠实的LIP模型交互解释方法(FIxLIP),作为分解视觉-语言编码器相似性的一种统一方法。FIxLIP基于博弈论,分析了加权Banzhaf交互指标如何提供更大的灵活性,并提高计算效率,优于Shapley交互量化框架。从实践角度出发,本文提出如何将解释评估指标(如pointing game和insertion/deletion曲线之间的面积)自然地扩展到二阶交互解释。在MS COCO和ImageNet-1k基准上的实验验证了二阶方法(如FIxLIP)优于一阶属性方法。除了提供高质量的解释外,本文还展示了FIxLIP在比较不同模型(例如CLIP与SigLIP-2)方面的效用。

🔬 方法详解

问题定义:现有视觉-语言模型解释方法,如显著性图,主要关注输入图像和文本对模型输出的独立影响(一阶属性),忽略了图像和文本之间的复杂交互关系。这种忽略导致解释结果不够全面和准确,无法充分理解模型决策过程中的跨模态信息融合。

核心思路:论文的核心思路是利用博弈论中的交互概念,特别是加权Banzhaf交互指标,来量化图像和文本不同部分之间的交互作用对模型相似性输出的贡献。通过分析这些二阶交互,可以更全面地理解模型如何综合利用视觉和语言信息进行判断。

技术框架:FIxLIP方法的核心在于将视觉-语言编码器解释问题转化为一个合作博弈问题。在这个框架下,图像和文本的各个部分被视为博弈中的参与者,模型输出的相似性得分被视为联盟的价值。然后,利用加权Banzhaf交互指标来计算每对参与者之间的交互值,从而揭示它们对相似性得分的联合贡献。整个流程包括:1) 定义参与者(图像和文本的区域或token);2) 计算不同参与者联盟的价值(模型输出的相似性得分);3) 使用加权Banzhaf交互指标计算交互值。

关键创新:最重要的技术创新点在于使用加权Banzhaf交互指标来解释视觉-语言模型的相似性。与传统的Shapley交互相比,加权Banzhaf交互在计算效率和灵活性方面具有优势。此外,论文还提出了将一阶解释评估指标(如pointing game和insertion/deletion曲线)扩展到二阶交互解释的方法。

关键设计:加权Banzhaf交互指标的选择是关键设计之一,因为它允许对不同参与者(图像区域或文本token)赋予不同的权重,从而更好地反映它们在模型决策中的重要性。此外,论文还详细描述了如何将现有的解释评估指标扩展到二阶交互解释,例如,通过考虑交互区域对pointing game的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FIxLIP在MS COCO和ImageNet-1k数据集上优于一阶属性方法。通过pointing game和insertion/deletion曲线等指标的评估,证明了FIxLIP能够提供更准确和全面的解释。此外,FIxLIP还被用于比较CLIP和SigLIP-2等不同模型的交互模式,揭示了它们在处理视觉和语言信息方面的差异。

🎯 应用场景

该研究成果可应用于提升视觉-语言模型的透明度和可解释性,帮助用户理解模型决策依据。此外,FIxLIP可用于模型调试和优化,发现模型潜在的偏差或缺陷。在医疗诊断、自动驾驶等安全攸关领域,可信赖的视觉-语言模型解释至关重要,该研究具有重要的应用价值。

📄 摘要(原文)

Language-image pre-training (LIP) enables the development of vision-language models capable of zero-shot classification, localization, multimodal retrieval, and semantic understanding. Various explanation methods have been proposed to visualize the importance of input image-text pairs on the model's similarity outputs. However, popular saliency maps are limited by capturing only first-order attributions, overlooking the complex cross-modal interactions intrinsic to such encoders. We introduce faithful interaction explanations of LIP models (FIxLIP) as a unified approach to decomposing the similarity in vision-language encoders. FIxLIP is rooted in game theory, where we analyze how using the weighted Banzhaf interaction index offers greater flexibility and improves computational efficiency over the Shapley interaction quantification framework. From a practical perspective, we propose how to naturally extend explanation evaluation metrics, such as the pointing game and area between the insertion/deletion curves, to second-order interaction explanations. Experiments on the MS COCO and ImageNet-1k benchmarks validate that second-order methods, such as FIxLIP, outperform first-order attribution methods. Beyond delivering high-quality explanations, we demonstrate the utility of FIxLIP in comparing different models, e.g. CLIP vs. SigLIP-2.