FAVOR-Bench: A Comprehensive Benchmark for Fine-Grained Video Motion Understanding

📄 arXiv: 2503.14935v1 📥 PDF

作者: Chongjun Tu, Lin Zhang, Pengtao Chen, Peng Ye, Xianfang Zeng, Wei Cheng, Gang Yu, Tao Chen

分类: cs.CV, cs.AI

发布日期: 2025-03-19

备注: FAVOR-Bench project page: https://favor-bench.github.io/


💡 一句话要点

FAVOR-Bench:用于细粒度视频运动理解的综合基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频理解 运动理解 多模态学习 基准测试 数据集

📋 核心要点

  1. 现有的多模态大型语言模型在细粒度视频运动理解方面存在不足,难以准确捕捉视频中的时间动态。
  2. FAVOR-Bench通过构建包含丰富运动标注的视频数据集,并设计封闭式和开放式评估任务,全面评估MLLM的运动理解能力。
  3. FAVOR-Train数据集用于微调MLLM,显著提升了模型在多个运动理解基准测试上的性能,验证了数据集的有效性。

📝 摘要(中文)

多模态大型语言模型(MLLM)在视频内容理解方面表现出卓越的能力,但在细粒度运动理解方面仍然存在困难。为了全面评估现有MLLM的运动理解能力,我们推出了FAVOR-Bench,它包含1,776个视频,并对各种运动进行了结构化的手动标注。我们的基准测试包括封闭式和开放式任务。对于封闭式评估,我们精心设计了8,184个多项选择问答对,涵盖六个不同的子任务。对于开放式评估,我们开发了一种新颖的、具有成本效益的、无需LLM的字幕评估方法和一种GPT辅助的字幕评估方法,前者可以增强基准测试的可解释性和可重复性。对21个最先进的MLLM进行的综合实验表明,它们在理解和描述视频运动中详细的时间动态方面存在显著局限性。为了缓解这一限制,我们进一步构建了FAVOR-Train,一个包含17,152个视频和细粒度运动标注的数据集。在FAVOR-Train上微调Qwen2.5-VL的结果表明,TVBench、MotionBench和我们的FAVOR-Bench上的运动相关任务都得到了持续的改进。全面的评估结果表明,所提出的FAVOR-Bench和FAVOR-Train为社区开发更强大的视频理解模型提供了有价值的工具。

🔬 方法详解

问题定义:现有的大型多模态模型在理解视频中的细粒度运动信息时表现不佳,无法准确捕捉视频中的时间动态变化。现有的视频理解基准测试可能缺乏对细粒度运动的足够关注,或者标注不够精细,难以充分评估模型在这方面的能力。

核心思路:构建一个专门针对细粒度视频运动理解的综合基准测试,包含高质量的视频数据和精细的运动标注。通过设计多种类型的评估任务,全面考察模型在不同方面的运动理解能力。同时,提供一个用于训练的数据集,帮助模型提升运动理解能力。

技术框架:FAVOR-Bench包含1776个视频,并进行了结构化的手动标注,涵盖各种运动类型。基准测试包含封闭式和开放式两种评估任务。封闭式评估使用8184个多项选择问答对,涵盖六个子任务。开放式评估则采用LLM-free和GPT辅助的字幕评估方法。FAVOR-Train包含17152个视频,并带有细粒度的运动标注,用于模型训练。

关键创新:FAVOR-Bench是专门针对细粒度视频运动理解而设计的,提供了比现有基准测试更精细的运动标注和更全面的评估任务。提出的LLM-free字幕评估方法具有成本效益,并能增强基准测试的可解释性和可重复性。FAVOR-Train数据集的构建为提升模型的运动理解能力提供了有效的数据支持。

关键设计:封闭式评估任务设计了六个不同的子任务,以全面评估模型在不同方面的运动理解能力。开放式评估任务采用了LLM-free和GPT辅助两种字幕评估方法,前者可以避免对大型语言模型的依赖,后者则可以利用大型语言模型的生成能力。FAVOR-Train数据集的标注涵盖了视频中各种细粒度的运动信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在FAVOR-Bench上对21个最先进的MLLM进行了评估,结果表明它们在理解和描述视频运动中的详细时间动态方面存在显著局限性。在FAVOR-Train上微调Qwen2.5-VL后,模型在TVBench、MotionBench和FAVOR-Bench上的运动相关任务都得到了持续的改进,验证了FAVOR-Train的有效性。例如,在FAVOR-Bench的多个子任务上,Qwen2.5-VL的性能提升了5%-10%。

🎯 应用场景

该研究成果可应用于视频监控、自动驾驶、人机交互、体育分析等领域。通过提升模型对视频中细粒度运动的理解能力,可以实现更精确的事件检测、行为识别和运动分析,从而提高相关应用的智能化水平和用户体验。未来,该研究可以促进更智能的视频内容创作和编辑工具的开发。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have shown remarkable capabilities in video content understanding but still struggle with fine-grained motion comprehension. To comprehensively assess the motion understanding ability of existing MLLMs, we introduce FAVOR-Bench, comprising 1,776 videos with structured manual annotations of various motions. Our benchmark includes both close-ended and open-ended tasks. For close-ended evaluation, we carefully design 8,184 multiple-choice question-answer pairs spanning six distinct sub-tasks. For open-ended evaluation, we develop both a novel cost-efficient LLM-free and a GPT-assisted caption assessment method, where the former can enhance benchmarking interpretability and reproducibility. Comprehensive experiments with 21 state-of-the-art MLLMs reveal significant limitations in their ability to comprehend and describe detailed temporal dynamics in video motions. To alleviate this limitation, we further build FAVOR-Train, a dataset consisting of 17,152 videos with fine-grained motion annotations. The results of finetuning Qwen2.5-VL on FAVOR-Train yield consistent improvements on motion-related tasks of TVBench, MotionBench and our FAVOR-Bench. Comprehensive assessment results demonstrate that the proposed FAVOR-Bench and FAVOR-Train provide valuable tools to the community for developing more powerful video understanding models. Project page: \href{https://favor-bench.github.io/}{https://favor-bench.github.io/}.