VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos
作者: Tingyu Song, Tongyan Hu, Guo Gan, Yilun Zhao
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-05-29
备注: ACL 2025 Main
💡 一句话要点
提出VF-Eval以评估多模态LLM在AIGC视频反馈生成中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 AI生成内容 视频生成 评估基准 连贯性验证 错误检测 推理评估
📋 核心要点
- 现有方法主要评估自然视频,缺乏对AI生成内容(AIGC)视频的深入分析,导致MLLMs在此领域的能力未得到充分探索。
- 本文提出VF-Eval基准,通过四个任务全面评估MLLMs在AIGC视频上的表现,填补了这一研究空白。
- 实验结果显示,最佳模型GPT-4.1在各任务上表现不一,且通过RePrompt实验验证了人类反馈对视频生成的积极影响。
📝 摘要(中文)
多模态大语言模型(MLLMs)在视频问答领域得到了广泛研究,但现有评估主要集中在自然视频上,忽视了合成视频(如AI生成内容AIGC)。为此,本文提出了新的基准VF-Eval,设计了四个任务:连贯性验证、错误意识、错误类型检测和推理评估,以全面评估MLLMs在AIGC视频上的能力。通过对13个前沿MLLMs在VF-Eval上的评估,发现即使是表现最佳的模型GPT-4.1在所有任务上也难以保持一致的良好表现,突显了基准的挑战性。此外,本文还通过实验RePrompt探讨了VF-Eval在改善视频生成中的实际应用,表明更紧密地将MLLMs与人类反馈对齐可以促进视频生成的质量。
🔬 方法详解
问题定义:本文旨在解决现有评估方法对AI生成内容(AIGC)视频的忽视,现有方法在此领域的适用性和有效性不足。
核心思路:提出VF-Eval基准,通过设计四个具体任务,全面评估多模态大语言模型(MLLMs)在AIGC视频反馈生成中的能力,旨在提升评估的全面性和准确性。
技术框架:VF-Eval包含四个主要任务:连贯性验证、错误意识、错误类型检测和推理评估。每个任务针对不同的评估维度,构成了一个系统的评估框架。
关键创新:VF-Eval的创新在于其针对AIGC视频的专门设计,填补了现有评估方法的空白,提供了更具挑战性的评估标准。
关键设计:在任务设计中,采用了多种评估指标,确保每个任务能够有效衡量模型在特定方面的能力,具体参数设置和损失函数的选择也经过精心调整,以适应AIGC视频的特性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,尽管GPT-4.1是表现最佳的模型,但在VF-Eval的各项任务中仍未能实现一致的优异表现,显示出该基准的挑战性。此外,RePrompt实验结果显示,通过与人类反馈的对齐,视频生成的质量得到了显著提升。
🎯 应用场景
VF-Eval的提出为多模态大语言模型在视频生成领域的应用提供了新的评估标准,能够帮助研究人员更好地理解和提升模型在AIGC视频生成中的表现。未来,该基准可能在视频生成、内容创作和人机交互等领域发挥重要作用,推动相关技术的进步。
📄 摘要(原文)
MLLMs have been widely studied for video question answering recently. However, most existing assessments focus on natural videos, overlooking synthetic videos, such as AI-generated content (AIGC). Meanwhile, some works in video generation rely on MLLMs to evaluate the quality of generated videos, but the capabilities of MLLMs on interpreting AIGC videos remain largely underexplored. To address this, we propose a new benchmark, VF-Eval, which introduces four tasks-coherence validation, error awareness, error type detection, and reasoning evaluation-to comprehensively evaluate the abilities of MLLMs on AIGC videos. We evaluate 13 frontier MLLMs on VF-Eval and find that even the best-performing model, GPT-4.1, struggles to achieve consistently good performance across all tasks. This highlights the challenging nature of our benchmark. Additionally, to investigate the practical applications of VF-Eval in improving video generation, we conduct an experiment, RePrompt, demonstrating that aligning MLLMs more closely with human feedback can benefit video generation.