Measuring Cross-Modal Synergy: A Benchmark for VLM Explainability

作者: Joël Roman Ky, Salah Ghamizi, Maxime Cordy

分类: cs.AI, cs.LG

发布日期: 2026-05-21

💡 一句话要点

提出Synergistic Faithfulness以解决VLM可解释性问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 可解释性 跨模态推理 Shapley交互指数 评估指标 高风险应用 机器学习

📋 核心要点

现有的VLM可解释性方法依赖单模态扰动指标，导致视觉和文本排名之间的矛盾，影响评估的准确性。
论文提出Synergistic Faithfulness指标，基于Shapley交互指数，能够有效隔离模态间的交互影响，提升评估的准确性。
实验结果表明，针对VLM的现有解释器在捕捉跨模态协同方面表现不佳，而新方法在准确性和计算效率上均有显著提升。

📝 摘要（中文）

视觉语言模型（VLMs）将复杂的视觉输入映射到语义空间，但目前对VLM跨模态推理的解释依赖于后验解释器，并通过单模态扰动指标进行评估。我们揭示了这一范式的局限性：由于多模态数据集包含语言先验和模态偏见，VLMs经常表现出跨模态冗余，允许它们仅通过文本回答视觉查询。因此，单模态指标惩罚了真实的解释器，导致视觉和文本排名之间的根本矛盾。为了解决这个问题，我们引入了Synergistic Faithfulness（$ ext{F}_{syn}$），这是一种基于Shapley交互指数的可扩展指标，严格隔离模态之间的联合Harsanyi红利，作为一种高精度的替代指标，同时实现了24倍的计算加速。对8种不同的XAI方法在3种VLM架构和3个基准数据集上的评估显示，针对VLMs提出的解释器在视觉显著性上严重过度索引，而在捕捉真实的跨模态协同方面显著表现不佳。通过将视觉合理性与跨模态忠实性解耦，这项工作提供了一个严格的评估框架，以安全审计VLM推理在高风险部署中的表现。

🔬 方法详解

问题定义：论文要解决的问题是现有VLM可解释性方法在评估时依赖单模态指标，导致视觉和文本之间的排名矛盾，影响了解释器的有效性。

核心思路：论文的核心解决思路是引入Synergistic Faithfulness指标，通过Shapley交互指数来严格隔离模态间的交互影响，从而提供更准确的可解释性评估。

技术框架：整体架构包括数据预处理、模型训练、Synergistic Faithfulness计算和评估阶段。主要模块包括VLM架构、解释器和评估指标计算。

关键创新：最重要的技术创新点是提出了Synergistic Faithfulness这一新指标，它能够有效捕捉跨模态协同，而不是单纯依赖视觉显著性，解决了现有方法的局限性。

关键设计：在设计中，采用了Shapley交互指数来计算模态间的联合Harsanyi红利，设置了高效的计算流程，使得计算速度提升了24倍，同时保持了高准确性（相关性ρ=0.92）。

🖼️ 关键图片

📊 实验亮点

实验结果显示，针对VLM的现有解释器在捕捉跨模态协同方面显著不足，而新提出的Synergistic Faithfulness指标在准确性上达到了ρ=0.92，并实现了24倍的计算速度提升，极大地提高了评估的效率和可靠性。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、医疗影像分析和智能助理等高风险场景。在这些领域，VLM的可解释性至关重要，能够帮助开发者和用户理解模型的决策过程，从而提高系统的安全性和可靠性。

📄 摘要（原文）

Vision-Language Models (VLMs) map complex visual inputs to semantic spaces, but interpreting the cross-modal reasoning of VLMs currently relies on post-hoc explainers evaluated via unimodal perturbation metrics. We expose a limitation in this paradigm: because multimodal datasets contain language priors and modality biases, VLMs frequently exhibit cross-modal redundancy, allowing them to answer visual queries using text alone. Consequently, unimodal metrics penalize faithful explainers, triggering an evaluation collapse where visual and textual rankings fundamentally contradict each other. %(Kendall's $τ= -0.06$). To resolve this, we introduce Synergistic Faithfulness ($\mathcal{F}_{syn}$), a scalable metric rooted in the Shapley Interaction Index that strictly isolates the joint Harsanyi dividend between modalities, serving as a highly accurate surrogate ($ρ= 0.92$) while achieving a $24\times$ computational speedup. Evaluating 8 distinct XAI methods across 3 VLM architectures and 3 benchmark datasets, reveals that explainers proposed for VLMs heavily over-index on visual salience and significantly underperform adapted attention-based methods in capturing true cross-modal synergy. By decoupling visual plausibility from cross-modal faithfulness, this work provides a rigorous evaluation framework required to safely audit VLM reasoning in high-stakes deployments.

Measuring Cross-Modal Synergy: A Benchmark for VLM Explainability

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理