VideoScore: Building Automatic Metrics to Simulate Fine-grained Human Feedback for Video Generation
作者: Xuan He, Dongfu Jiang, Ge Zhang, Max Ku, Achint Soni, Sherman Siu, Haonan Chen, Abhranil Chandra, Ziyan Jiang, Aaran Arulraj, Kai Wang, Quy Duc Do, Yuansheng Ni, Bohan Lyu, Yaswanth Narsupalli, Rongqi Fan, Zhiheng Lyu, Yuchen Lin, Wenhu Chen
分类: cs.CV, cs.AI
发布日期: 2024-06-21 (更新: 2024-10-14)
💡 一句话要点
VideoScore:构建自动视频评估指标,模拟人类反馈以提升视频生成质量
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视频生成 自动评估指标 人类反馈 强化学习 视频质量评估 大规模数据集 Spearman相关性
📋 核心要点
- 现有视频生成评估指标缺乏大规模人工标注数据支持,无法准确反映人类对视频质量的感知。
- VideoScore通过构建大规模人工标注数据集VideoFeedback,并在此基础上训练自动评估模型,模拟人类反馈。
- 实验表明,VideoScore在多个数据集上与人类评估的一致性显著高于现有指标,可有效评估视频生成质量。
📝 摘要(中文)
近年来,视频生成技术取得了显著进展,但自动视频评估指标的发展却严重滞后。现有的指标都无法为生成的视频提供可靠的分数,主要障碍在于缺乏大规模的人工标注数据集。本文发布了VideoFeedback,这是第一个大规模数据集,包含来自11个现有视频生成模型的37.6K个合成视频的人工多方面评分。我们基于VideoFeedback训练了VideoScore(从Mantis初始化),以实现自动视频质量评估。实验表明,VideoScore与人类在VideoFeedback-test上的Spearman相关性可以达到77.1,比之前最好的指标高出约50个点。在EvalCrafter、GenAI-Bench和VBench等其他保留数据集上的进一步结果表明,VideoScore与人类评估者的一致性始终高于其他指标。鉴于这些结果,我们认为VideoScore可以作为人类评估者的良好替代,用于(1)评估不同的视频模型以跟踪进展,(2)在基于人类反馈的强化学习(RLHF)中模拟细粒度的人类反馈,以改进当前的视频生成模型。
🔬 方法详解
问题定义:当前视频生成领域缺乏有效的自动评估指标,现有指标与人类感知差异较大,无法准确衡量生成视频的质量。主要痛点在于缺乏大规模、多维度的人工标注数据集,难以训练出可靠的评估模型。
核心思路:论文的核心思路是构建一个大规模的人工标注数据集VideoFeedback,该数据集包含多个视频生成模型生成的视频,并由人工标注人员从多个方面进行评分。然后,利用该数据集训练一个自动评估模型VideoScore,使其能够模拟人类的评分行为,从而实现对生成视频质量的准确评估。
技术框架:VideoScore的整体框架包括以下几个主要步骤:1) 构建大规模人工标注数据集VideoFeedback,包含多个视频生成模型生成的视频以及人工多方面评分;2) 基于VideoFeedback训练VideoScore模型,该模型以Mantis模型为初始化;3) 在多个数据集上评估VideoScore的性能,并与其他评估指标进行比较。
关键创新:论文最重要的技术创新点在于构建了大规模人工标注数据集VideoFeedback,该数据集为训练可靠的自动视频评估模型提供了数据基础。此外,利用该数据集训练的VideoScore模型能够显著提高与人类评估的一致性,优于现有的评估指标。
关键设计:VideoScore模型以Mantis模型为初始化,具体网络结构细节未知。训练过程中,使用了VideoFeedback数据集中的人工评分作为监督信号,优化模型参数,使其能够预测与人类评分一致的视频质量分数。具体的损失函数和参数设置细节未知。
🖼️ 关键图片
📊 实验亮点
VideoScore在VideoFeedback-test数据集上与人类的Spearman相关性达到77.1,比之前最好的指标高出约50个点。在EvalCrafter、GenAI-Bench和VBench等其他数据集上的实验结果也表明,VideoScore与人类评估者的一致性始终高于其他指标,证明了其优越的性能和泛化能力。
🎯 应用场景
VideoScore可广泛应用于视频生成模型的开发和评估。它可以作为自动化的评估工具,帮助研究人员快速评估不同模型的性能,并跟踪模型改进的进展。此外,VideoScore还可以用于基于人类反馈的强化学习(RLHF)中,模拟细粒度的人类反馈,从而指导视频生成模型的训练,提升生成视频的质量和用户体验。该研究对视频内容理解、视频质量评估等领域具有重要意义。
📄 摘要(原文)
The recent years have witnessed great advances in video generation. However, the development of automatic video metrics is lagging significantly behind. None of the existing metric is able to provide reliable scores over generated videos. The main barrier is the lack of large-scale human-annotated dataset. In this paper, we release VideoFeedback, the first large-scale dataset containing human-provided multi-aspect score over 37.6K synthesized videos from 11 existing video generative models. We train VideoScore (initialized from Mantis) based on VideoFeedback to enable automatic video quality assessment. Experiments show that the Spearman correlation between VideoScore and humans can reach 77.1 on VideoFeedback-test, beating the prior best metrics by about 50 points. Further result on other held-out EvalCrafter, GenAI-Bench, and VBench show that VideoScore has consistently much higher correlation with human judges than other metrics. Due to these results, we believe VideoScore can serve as a great proxy for human raters to (1) rate different video models to track progress (2) simulate fine-grained human feedback in Reinforcement Learning with Human Feedback (RLHF) to improve current video generation models.