Audio-centric Video Understanding Benchmark without Text Shortcut

📄 arXiv: 2503.19951v3 📥 PDF

作者: Yudong Yang, Jimin Zhuang, Guangzhi Sun, Changli Tang, Yixuan Li, Peihan Li, Yifan Jiang, Wei Li, Zejun Ma, Chao Zhang

分类: cs.CV, cs.AI

发布日期: 2025-03-25 (更新: 2025-09-28)

备注: Accepted for publication in the Proceedings of EMNLP 2025 (Main Conference)

🔗 代码/项目: GITHUB


💡 一句话要点

提出AVUT:一个以音频为中心的视频理解基准,解决文本捷径问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频理解 音频中心 多模态学习 大型语言模型 基准测试

📋 核心要点

  1. 现有视频理解任务通常将音频作为辅助模态,忽略了音频在提供上下文、情感线索和语义信息方面的重要作用。
  2. AVUT基准通过设计音频中心任务,并采用答案置换过滤机制,有效避免了模型利用文本捷径作答的问题。
  3. 实验结果揭示了现有模型在视听理解方面的不足,为未来研究提供了有价值的参考,并公开了相关数据和代码。

📝 摘要(中文)

本文提出了一个以音频为中心的视频理解基准(AVUT),旨在评估多模态大型语言模型(LLM)在视频理解方面的能力,尤其侧重于音频信息。AVUT引入了一系列精心设计的以音频为中心的任务,全面测试模型对视频中音频内容和视听交互的理解。此外,该研究指出了现有基准测试中普遍存在的文本捷径问题,即仅从问题文本中就能找到正确答案,而无需理解视频内容。AVUT通过提出一种基于答案排列的过滤机制来解决这个问题。论文对各种开源和专有的多模态LLM进行了全面评估,并分析了视听LLM的不足之处。相关演示和数据可在https://github.com/lark-png/AVUT获取。

🔬 方法详解

问题定义:现有的视频理解基准测试往往侧重于视觉信息,而忽略了音频在视频理解中的重要作用。此外,许多基准测试存在“文本捷径”问题,即模型可以通过分析问题文本来推断答案,而无需真正理解视频内容,导致评估结果不准确。

核心思路:本文的核心思路是构建一个以音频为中心的视频理解基准(AVUT),并设计相应的评估任务,以更全面地评估模型对音频信息和视听交互的理解能力。同时,采用答案置换过滤机制来消除文本捷径的影响,确保模型真正依赖于视听信息进行推理。

技术框架:AVUT基准包含一系列精心设计的音频中心任务,涵盖了对音频内容和视听交互的理解。这些任务旨在测试模型在不同场景下对音频信息的感知、推理和利用能力。为了解决文本捷径问题,AVUT采用了一种基于答案排列的过滤机制。该机制通过随机排列答案选项,并观察模型预测结果的变化,来判断模型是否依赖于问题文本中的线索。

关键创新:AVUT最重要的创新点在于其以音频为中心的任务设计和答案置换过滤机制。传统的视频理解基准往往侧重于视觉信息,而AVUT则强调音频在视频理解中的重要性。答案置换过滤机制能够有效消除文本捷径的影响,从而更准确地评估模型对视听信息的理解能力。

关键设计:AVUT基准的具体任务设计和答案置换过滤机制是关键的技术细节。任务设计需要充分考虑音频在不同场景下的作用,并设计相应的评估指标。答案置换过滤机制需要选择合适的排列策略和阈值,以确保能够有效消除文本捷径的影响,同时避免误判。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文对一系列开源和商业多模态LLM进行了评估,结果表明现有模型在音频理解和视听交互方面存在明显不足。通过AVUT基准的评估,可以更清晰地了解模型的优势和劣势,为未来的模型改进提供指导。实验结果也验证了答案置换过滤机制的有效性,表明该机制能够有效消除文本捷径的影响。

🎯 应用场景

该研究成果可应用于开发更智能的视听理解系统,例如智能视频监控、自动驾驶、人机交互等领域。通过提高模型对音频信息的理解能力,可以提升系统在复杂环境下的感知和决策能力。此外,该基准可以促进多模态学习领域的研究进展,推动开发更强大的视听模型。

📄 摘要(原文)

Audio often serves as an auxiliary modality in video understanding tasks of audio-visual large language models (LLMs), merely assisting in the comprehension of visual information. However, a thorough understanding of videos significantly depends on auditory information, as audio offers critical context, emotional cues, and semantic meaning that visual data alone often lacks. This paper proposes an audio-centric video understanding benchmark (AVUT) to evaluate the video comprehension capabilities of multimodal LLMs with a particular focus on auditory information. AVUT introduces a suite of carefully designed audio-centric tasks, holistically testing the understanding of both audio content and audio-visual interactions in videos. Moreover, this work points out the text shortcut problem that largely exists in other benchmarks where the correct answer can be found from question text alone without needing videos. AVUT addresses this problem by proposing a answer permutation-based filtering mechanism. A thorough evaluation across a diverse range of open-source and proprietary multimodal LLMs is performed, followed by the analyses of deficiencies in audio-visual LLMs. Demos and data are available at https://github.com/lark-png/AVUT.