An Experimental Study on Generating Plausible Textual Explanations for Video Summarization

作者: Thomas Eleftheriadis, Evlampios Apostolidis, Vasileios Mezaris

分类: cs.CV, cs.AI

发布日期: 2025-09-30

备注: IEEE CBMI 2025. This is the authors' accepted version. The final publication is available at https://ieeexplore.ieee.org/

💡 一句话要点

提出一种基于大模型和语义重叠的视频摘要可信解释生成与评估方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频摘要 可解释AI 多模态学习 语义重叠 合理性评估 LLaVA-OneVision 句子嵌入

📋 核心要点

现有视频摘要解释方法缺乏对解释合理性的有效评估，难以保证与人类认知对齐。
利用大型多模态模型生成视觉解释的文本描述，并通过语义重叠度量评估合理性。
实验表明，该方法能够有效评估视频摘要解释的合理性，并为生成更合理的解释提供指导。

📝 摘要（中文）

本文提出了一项关于为视频摘要结果生成合理文本解释的实验研究。为了满足这项研究的需求，我们扩展了一个现有的视频摘要多粒度解释框架，通过集成一个最先进的大型多模态模型（LLaVA-OneVision），并提示它生成对所获得的视觉解释的自然语言描述。接下来，我们专注于可解释AI最需要的特性之一，即所获得的解释的合理性，这与它们与人类的推理和期望的一致性有关。使用扩展的框架，我们提出了一种通过量化其文本描述与相应视频摘要的文本描述之间的语义重叠来评估视觉解释合理性的方法，借助两种用于创建句子嵌入的方法（SBERT、SimCSE）。基于扩展的框架和提出的合理性评估方法，我们使用一种最先进的方法（CA-SUM）和两个用于视频摘要的数据集（SumMe、TVSum）进行了一项实验研究，以检验更忠实的解释是否也是更合理的解释，并确定用于为视频摘要生成合理文本解释的最合适方法。

🔬 方法详解

问题定义：视频摘要旨在从长视频中提取关键帧或片段，生成简短但信息丰富的摘要。然而，现有的视频摘要方法通常缺乏透明度，难以解释其决策过程。因此，如何为视频摘要的结果提供合理且可信的解释，成为了一个重要的研究问题。现有方法缺乏对解释合理性的有效评估，难以保证与人类认知对齐。

核心思路：本文的核心思路是利用大型多模态模型（LLaVA-OneVision）生成视频摘要视觉解释的文本描述，然后通过计算这些文本描述与原始视频摘要文本描述之间的语义重叠度，来量化解释的合理性。这种方法的核心在于，如果一个解释与人类对视频摘要的理解一致，那么它的文本描述应该与视频摘要本身的文本描述具有较高的语义相似度。

技术框架：该框架主要包含以下几个模块：1) 视频摘要模块，使用现有的视频摘要算法（如CA-SUM）生成视频摘要；2) 视觉解释模块，为视频摘要的结果生成视觉解释（例如，突出显示关键帧或片段）；3) 文本描述生成模块，使用LLaVA-OneVision模型将视觉解释转换为自然语言文本描述；4) 语义重叠度量模块，使用SBERT或SimCSE等句子嵌入模型计算解释文本描述与视频摘要文本描述之间的语义重叠度。

关键创新：该方法的主要创新在于：1) 将大型多模态模型应用于视频摘要解释的生成，能够产生更自然、更丰富的文本描述；2) 提出了一种基于语义重叠的合理性评估方法，能够客观地量化解释与人类认知的一致性。

关键设计：在文本描述生成模块中，使用了LLaVA-OneVision模型，并设计了合适的prompt，以引导模型生成准确、简洁的文本描述。在语义重叠度量模块中，使用了SBERT和SimCSE两种句子嵌入模型，并比较了它们在合理性评估方面的性能。此外，还探索了不同的语义重叠度量方法，例如余弦相似度等。

📊 实验亮点

实验结果表明，基于语义重叠的合理性评估方法能够有效区分不同解释的合理性。使用CA-SUM算法在SumMe和TVSum数据集上进行实验，发现更忠实的解释往往也具有更高的合理性。此外，实验还表明，SBERT和SimCSE两种句子嵌入模型在合理性评估方面具有相似的性能。

🎯 应用场景

该研究成果可应用于视频监控、新闻报道、教育视频等领域，帮助用户更好地理解视频摘要的结果，提高视频摘要系统的可信度和可用性。未来，该方法可以扩展到其他视频分析任务，例如视频分类、视频检索等，为这些任务提供更具解释性的结果。

📄 摘要（原文）

In this paper, we present our experimental study on generating plausible textual explanations for the outcomes of video summarization. For the needs of this study, we extend an existing framework for multigranular explanation of video summarization by integrating a SOTA Large Multimodal Model (LLaVA-OneVision) and prompting it to produce natural language descriptions of the obtained visual explanations. Following, we focus on one of the most desired characteristics for explainable AI, the plausibility of the obtained explanations that relates with their alignment with the humans' reasoning and expectations. Using the extended framework, we propose an approach for evaluating the plausibility of visual explanations by quantifying the semantic overlap between their textual descriptions and the textual descriptions of the corresponding video summaries, with the help of two methods for creating sentence embeddings (SBERT, SimCSE). Based on the extended framework and the proposed plausibility evaluation approach, we conduct an experimental study using a SOTA method (CA-SUM) and two datasets (SumMe, TVSum) for video summarization, to examine whether the more faithful explanations are also the more plausible ones, and identify the most appropriate approach for generating plausible textual explanations for video summarization.

An Experimental Study on Generating Plausible Textual Explanations for Video Summarization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册