A Video Is Not Worth a Thousand Words

作者: Sam Pollard, Michael Wray

分类: cs.CV

发布日期: 2025-10-27

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于Shapley值的特征归因和模态评分方法，评估VLM在VQA任务中的文本依赖性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频问答 视觉语言模型 Shapley值 特征归因 模态评分 文本依赖 多模态学习

📋 核心要点

现有VQA模型依赖大型语言模型，可能导致文本主导，忽略了视频模态的重要性。
提出基于Shapley值的特征归因和模态评分方法，用于评估VLM对不同模态的依赖程度。
实验结果表明，现有VQA模型在多项选择任务中过度依赖文本，忽略了视频信息。

📝 摘要（中文）

随着我们越来越依赖视觉语言模型（VLM）来回答关于周围世界的问题，大量的研究致力于提高视频问答（VQA）数据集的难度和模型所评估的上下文长度。对大型语言模型作为骨干的依赖引发了对潜在文本主导地位的担忧，并且模态之间的交互探索不足。我们如何衡量我们是否朝着正确的方向前进，以及多模态模型引入的复杂性？我们提出了一种基于Shapley值计算特征归因和模态分数的联合方法，其中特征和模态都是可以任意定义的。使用这些指标，我们比较了6个具有不同上下文长度的VLM模型在4个代表性数据集上的表现，重点是多项选择VQA。特别是，我们将视频帧和整个文本元素视为层次结构中的相等特征，并将多项选择VQA任务视为视频、问题和答案三种模态之间的交互。我们的结果表明对文本的依赖性，并表明多项选择VQA任务退化为模型忽略干扰项的能力。

🔬 方法详解

问题定义：论文旨在解决视觉语言模型（VLM）在视频问答（VQA）任务中对文本的过度依赖问题。现有方法通常依赖大型语言模型作为骨干，这可能导致模型忽略视频信息，而将VQA任务简化为文本理解和推理。此外，如何有效衡量模型对不同模态的依赖程度也是一个挑战。

核心思路：论文的核心思路是利用Shapley值来计算特征归因和模态分数，从而量化VLM对不同模态的依赖程度。Shapley值是一种合作博弈论中的概念，可以公平地分配每个特征或模态对模型预测的贡献。通过分析Shapley值，可以识别出哪些特征或模态对模型的决策起着主导作用。

技术框架：该方法首先将视频帧和文本元素（问题和答案）视为统一的特征。然后，利用VLM模型对VQA任务进行预测。接下来，使用Shapley值计算每个特征和模态对预测结果的贡献。最后，通过分析特征归因和模态分数，评估VLM对不同模态的依赖程度。整体流程包括数据预处理、模型预测、Shapley值计算和结果分析四个主要阶段。

关键创新：该方法最重要的技术创新点在于将Shapley值应用于VQA任务中的特征归因和模态评分。与现有方法相比，该方法能够更准确地量化VLM对不同模态的依赖程度，并识别出模型中的文本主导现象。此外，该方法具有通用性，可以应用于不同的VLM模型和VQA数据集。

关键设计：在Shapley值计算中，论文将视频帧和文本元素视为平等特征，并考虑了视频、问题和答案三种模态之间的交互。具体而言，论文使用蒙特卡洛方法来估计Shapley值，并通过实验验证了该方法的有效性。此外，论文还设计了一系列指标来评估特征归因和模态评分的结果，例如模态依赖性分数和特征重要性排名。

📊 实验亮点

实验结果表明，现有VQA模型在多项选择任务中过度依赖文本，忽略了视频信息。具体而言，模型在很大程度上依赖于问题和答案中的关键词，而对视频帧的关注较少。通过对比不同上下文长度的VLM模型，发现增加上下文长度并不能有效解决文本主导问题。实验还表明，多项选择VQA任务在一定程度上退化为模型忽略干扰项的能力。

🎯 应用场景

该研究成果可应用于提升视频问答系统的性能和可解释性。通过分析模型对不同模态的依赖程度，可以指导模型设计，减少对文本的过度依赖，提高对视频内容的理解能力。此外，该方法还可以用于评估不同VLM模型的优劣，并为模型选择提供依据。未来，该研究可以扩展到其他多模态任务，例如视频摘要、视频生成等。

📄 摘要（原文）

As we become increasingly dependent on vision language models (VLMs) to answer questions about the world around us, there is a significant amount of research devoted to increasing both the difficulty of video question answering (VQA) datasets, and the context lengths of the models that they evaluate. The reliance on large language models as backbones has lead to concerns about potential text dominance, and the exploration of interactions between modalities is underdeveloped. How do we measure whether we're heading in the right direction, with the complexity that multi-modal models introduce? We propose a joint method of computing both feature attributions and modality scores based on Shapley values, where both the features and modalities are arbitrarily definable. Using these metrics, we compare $6$ VLM models of varying context lengths on $4$ representative datasets, focusing on multiple-choice VQA. In particular, we consider video frames and whole textual elements as equal features in the hierarchy, and the multiple-choice VQA task as an interaction between three modalities: video, question and answer. Our results demonstrate a dependence on text and show that the multiple-choice VQA task devolves into a model's ability to ignore distractors. Code available at https://github.com/sjpollard/a-video-is-not-worth-a-thousand-words.

A Video Is Not Worth a Thousand Words

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册