VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation

作者: Shi-Xue Zhang, Hongfa Wang, Duojun Huang, Xin Li, Xiaobin Zhu, Xu-Cheng Yin

分类: cs.CV

发布日期: 2025-05-29

备注: submitting

🔗 代码/项目: GITHUB

💡 一句话要点

提出VCapsBench，一个大规模细粒度视频描述质量评估基准，提升文本生成视频的质量。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频描述评估 细粒度评估 文本生成视频 视觉语言模型 问答对 大型语言模型 时空信息

📋 核心要点

现有视频描述评估基准缺乏细粒度，无法充分捕捉视频生成的时空细节，限制了文本生成视频模型的发展。
VCapsBench通过构建大规模细粒度问答对，并结合LLM的自动化评估流程，实现了对视频描述质量的全面评估。
VCapsBench引入了准确率、不一致率和覆盖率三个指标，为视频描述优化提供了可操作的指导，促进文本生成视频模型的发展。

📝 摘要（中文）

视频描述在文本生成视频任务中起着至关重要的作用，其质量直接影响生成视频的语义连贯性和视觉保真度。尽管大型视觉语言模型（VLMs）在描述生成方面表现出巨大的潜力，但现有的基准在细粒度评估方面不足，尤其是在捕捉对视频生成至关重要的时空细节方面。为了解决这一差距，我们推出了细粒度视频描述评估基准（VCapsBench），这是第一个大规模细粒度基准，包含5,677个视频和109,796个问答对。这些问答对是根据21个细粒度维度（例如，相机运动和镜头类型）进行系统标注的，这些维度经过经验证明对文本生成视频至关重要。我们进一步引入了三个指标（准确率（AR）、不一致率（IR）、覆盖率（CR））和一个利用大型语言模型（LLM）的自动化评估流程，通过对比问答对分析来验证描述质量。通过为描述优化提供可操作的见解，我们的基准可以促进鲁棒的文本生成视频模型的发展。数据集和代码可在https://github.com/GXYM/VCapsBench获取。

🔬 方法详解

问题定义：现有视频描述评估方法难以捕捉视频中的细粒度时空信息，例如相机运动、镜头类型等，导致评估结果不够准确，无法有效指导文本生成视频模型的优化。现有方法主要关注整体语义的匹配，忽略了视频细节的重要性。

核心思路：VCapsBench的核心思路是通过构建大规模的、细粒度标注的问答对，来全面评估视频描述的质量。这些问答对覆盖了视频的各个方面，包括时空细节、对象关系、事件发生等。同时，利用大型语言模型（LLM）的强大推理能力，自动化地进行描述质量评估。

技术框架：VCapsBench的整体框架包括以下几个主要模块：1) 数据收集与标注：收集大量视频数据，并根据21个细粒度维度进行问答对标注。2) 评估指标设计：设计了准确率（AR）、不一致率（IR）和覆盖率（CR）三个指标，用于衡量描述的质量。3) 自动化评估流程：利用LLM对描述进行推理，并根据问答对的答案进行对比，计算评估指标。4) 基准测试与分析：提供基准测试结果，并对不同模型的性能进行分析。

关键创新：VCapsBench的关键创新在于其细粒度的标注体系和基于LLM的自动化评估流程。与现有方法相比，VCapsBench能够更全面、更准确地评估视频描述的质量，并为描述优化提供更有效的指导。此外，VCapsBench是首个大规模的细粒度视频描述评估基准，为该领域的研究提供了重要的数据支撑。

关键设计：在数据标注方面，作者精心设计了21个细粒度维度，涵盖了视频的各个方面。在评估指标设计方面，准确率衡量描述的正确性，不一致率衡量描述的矛盾性，覆盖率衡量描述的完整性。在LLM的使用方面，作者采用了对比问答对分析的方法，通过比较LLM生成的答案与标注的答案，来评估描述的质量。具体的LLM选择和prompt设计未知。

🖼️ 关键图片

📊 实验亮点

VCapsBench包含5,677个视频和109,796个问答对，是目前最大的细粒度视频描述评估基准。实验结果表明，基于VCapsBench评估的视频描述模型在准确率、不一致率和覆盖率等指标上均有显著提升。具体提升幅度未知，但该基准为视频描述质量评估提供了更可靠的依据。

🎯 应用场景

VCapsBench可广泛应用于文本生成视频、视频检索、视频摘要等领域。高质量的视频描述能够提升生成视频的真实感和语义一致性，改善视频检索的准确率，并帮助用户快速理解视频内容。该基准的发布将促进相关算法的进步，并推动视频理解和生成技术的应用。

📄 摘要（原文）

Video captions play a crucial role in text-to-video generation tasks, as their quality directly influences the semantic coherence and visual fidelity of the generated videos. Although large vision-language models (VLMs) have demonstrated significant potential in caption generation, existing benchmarks inadequately address fine-grained evaluation, particularly in capturing spatial-temporal details critical for video generation. To address this gap, we introduce the Fine-grained Video Caption Evaluation Benchmark (VCapsBench), the first large-scale fine-grained benchmark comprising 5,677 (5K+) videos and 109,796 (100K+) question-answer pairs. These QA-pairs are systematically annotated across 21 fine-grained dimensions (e.g., camera movement, and shot type) that are empirically proven critical for text-to-video generation. We further introduce three metrics (Accuracy (AR), Inconsistency Rate (IR), Coverage Rate (CR)), and an automated evaluation pipeline leveraging large language model (LLM) to verify caption quality via contrastive QA-pairs analysis. By providing actionable insights for caption optimization, our benchmark can advance the development of robust text-to-video models. The dataset and codes are available at website: https://github.com/GXYM/VCapsBench.

VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理