Measuring Cross-Modal Synergy: A Benchmark for VLM Explainability

📄 arXiv: 2605.22168v1 📥 PDF

作者: Joël Roman Ky, Salah Ghamizi, Maxime Cordy

分类: cs.AI, cs.LG

发布日期: 2026-05-21


💡 一句话要点

提出Synergistic Faithfulness以解决VLM可解释性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 可解释性 跨模态推理 Shapley交互指数 评估指标 高风险应用 机器学习

📋 核心要点

  1. 现有的VLM可解释性方法依赖单模态扰动指标,导致视觉和文本排名之间的矛盾,影响评估的准确性。
  2. 论文提出Synergistic Faithfulness指标,基于Shapley交互指数,能够有效隔离模态间的交互影响,提升评估的准确性。
  3. 实验结果表明,针对VLM的现有解释器在捕捉跨模态协同方面表现不佳,而新方法在准确性和计算效率上均有显著提升。

📝 摘要(中文)

视觉语言模型(VLMs)将复杂的视觉输入映射到语义空间,但目前对VLM跨模态推理的解释依赖于后验解释器,并通过单模态扰动指标进行评估。我们揭示了这一范式的局限性:由于多模态数据集包含语言先验和模态偏见,VLMs经常表现出跨模态冗余,允许它们仅通过文本回答视觉查询。因此,单模态指标惩罚了真实的解释器,导致视觉和文本排名之间的根本矛盾。为了解决这个问题,我们引入了Synergistic Faithfulness($ ext{F}_{syn}$),这是一种基于Shapley交互指数的可扩展指标,严格隔离模态之间的联合Harsanyi红利,作为一种高精度的替代指标,同时实现了24倍的计算加速。对8种不同的XAI方法在3种VLM架构和3个基准数据集上的评估显示,针对VLMs提出的解释器在视觉显著性上严重过度索引,而在捕捉真实的跨模态协同方面显著表现不佳。通过将视觉合理性与跨模态忠实性解耦,这项工作提供了一个严格的评估框架,以安全审计VLM推理在高风险部署中的表现。

🔬 方法详解

问题定义:论文要解决的问题是现有VLM可解释性方法在评估时依赖单模态指标,导致视觉和文本之间的排名矛盾,影响了解释器的有效性。

核心思路:论文的核心解决思路是引入Synergistic Faithfulness指标,通过Shapley交互指数来严格隔离模态间的交互影响,从而提供更准确的可解释性评估。

技术框架:整体架构包括数据预处理、模型训练、Synergistic Faithfulness计算和评估阶段。主要模块包括VLM架构、解释器和评估指标计算。

关键创新:最重要的技术创新点是提出了Synergistic Faithfulness这一新指标,它能够有效捕捉跨模态协同,而不是单纯依赖视觉显著性,解决了现有方法的局限性。

关键设计:在设计中,采用了Shapley交互指数来计算模态间的联合Harsanyi红利,设置了高效的计算流程,使得计算速度提升了24倍,同时保持了高准确性(相关性ρ=0.92)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,针对VLM的现有解释器在捕捉跨模态协同方面显著不足,而新提出的Synergistic Faithfulness指标在准确性上达到了ρ=0.92,并实现了24倍的计算速度提升,极大地提高了评估的效率和可靠性。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、医疗影像分析和智能助理等高风险场景。在这些领域,VLM的可解释性至关重要,能够帮助开发者和用户理解模型的决策过程,从而提高系统的安全性和可靠性。

📄 摘要(原文)

Vision-Language Models (VLMs) map complex visual inputs to semantic spaces, but interpreting the cross-modal reasoning of VLMs currently relies on post-hoc explainers evaluated via unimodal perturbation metrics. We expose a limitation in this paradigm: because multimodal datasets contain language priors and modality biases, VLMs frequently exhibit cross-modal redundancy, allowing them to answer visual queries using text alone. Consequently, unimodal metrics penalize faithful explainers, triggering an evaluation collapse where visual and textual rankings fundamentally contradict each other. %(Kendall's $τ= -0.06$). To resolve this, we introduce Synergistic Faithfulness ($\mathcal{F}_{syn}$), a scalable metric rooted in the Shapley Interaction Index that strictly isolates the joint Harsanyi dividend between modalities, serving as a highly accurate surrogate ($ρ= 0.92$) while achieving a $24\times$ computational speedup. Evaluating 8 distinct XAI methods across 3 VLM architectures and 3 benchmark datasets, reveals that explainers proposed for VLMs heavily over-index on visual salience and significantly underperform adapted attention-based methods in capturing true cross-modal synergy. By decoupling visual plausibility from cross-modal faithfulness, this work provides a rigorous evaluation framework required to safely audit VLM reasoning in high-stakes deployments.