AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM

📄 arXiv: 2411.17221v1 📥 PDF

作者: Jiarui Wang, Huiyu Duan, Guangtao Zhai, Juntong Wang, Xiongkuo Min

分类: cs.CV

发布日期: 2024-11-26


💡 一句话要点

提出AIGV-Assessor,利用LMM评估文本生成视频的感知质量,并构建大规模AIGVQA-DB数据集。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人工智能生成视频 视频质量评估 大型多模态模型 时空特征 AIGVQA-DB数据集

📋 核心要点

  1. 现有VQA模型难以准确评估AIGV的感知质量,因为AIGV存在不真实的物体和不自然的运动等独特失真。
  2. AIGV-Assessor利用时空特征和LMM框架,捕捉AIGV的复杂质量属性,从而准确预测视频质量。
  3. 实验表明,AIGV-Assessor在AIGVQA-DB和现有AIGV数据库上均表现出优于现有方法的性能。

📝 摘要(中文)

随着大型多模态模型(LMMs)的快速发展,人工智能生成视频(AIGVs)也迅速增加,这突显了对专门为AIGVs设计的有效视频质量评估(VQA)模型的需求。由于不真实的物体、不自然的运动或不一致的视觉元素等独特的失真,当前的VQA模型通常无法准确评估AIGVs的感知质量。为了解决这个挑战,我们首先提出了AIGVQA-DB,这是一个大规模数据集,包含由15个先进的文本到视频模型使用1,048个不同的提示生成的36,576个AIGV。利用这些AIGV,我们设计了一个包括评分和排序过程的系统注释流程,迄今为止收集了37万个专家评分。基于AIGVQA-DB,我们进一步引入了AIGV-Assessor,这是一种新颖的VQA模型,它利用时空特征和LMM框架来捕捉AIGV的复杂质量属性,从而准确地预测精确的视频质量分数和视频对偏好。通过在AIGVQA-DB和现有AIGV数据库上进行的大量实验,AIGV-Assessor展示了最先进的性能,在多个感知质量维度方面显著超越了现有的评分或评估方法。

🔬 方法详解

问题定义:论文旨在解决人工智能生成视频(AIGV)质量评估的问题。现有视频质量评估(VQA)模型在评估AIGV时表现不佳,因为AIGV具有独特的失真,例如不真实的物体、不自然的运动和视觉元素不一致等。这些失真使得传统VQA模型无法准确捕捉AIGV的感知质量。

核心思路:论文的核心思路是利用大型多模态模型(LMM)的强大能力,结合时空特征,来更全面地理解和评估AIGV的质量。通过LMM,模型可以更好地理解视频内容,并识别AIGV中存在的各种失真。同时,时空特征可以捕捉视频中的运动信息,从而更好地评估视频的流畅性和自然性。

技术框架:AIGV-Assessor的整体框架包含以下几个主要模块:1) 时空特征提取模块:用于提取视频的时空特征,例如使用3D卷积神经网络(C3D)或类似的结构。2) LMM特征提取模块:利用预训练的LMM(例如CLIP)提取视频的语义特征。3) 质量预测模块:将提取的时空特征和LMM特征融合,然后输入到回归模型中,预测视频的质量得分。此外,还设计了排序模块,用于预测视频对的偏好。

关键创新:论文的关键创新在于将LMM引入到AIGV的质量评估中。与传统的VQA模型相比,AIGV-Assessor能够更好地理解视频内容,并识别AIGV中存在的各种失真。此外,论文还构建了一个大规模的AIGVQA-DB数据集,为AIGV质量评估的研究提供了重要的数据支持。

关键设计:在时空特征提取方面,可以使用预训练的3D卷积神经网络,例如C3D或I3D。在LMM特征提取方面,可以使用CLIP或类似的模型。质量预测模块可以使用简单的回归模型,例如线性回归或支持向量回归。损失函数可以使用均方误差(MSE)或类似的损失函数。在排序模块中,可以使用pairwise ranking loss。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AIGV-Assessor在AIGVQA-DB数据集上取得了state-of-the-art的性能,显著超越了现有的评分或评估方法。具体性能数据未知,但论文强调了在多个感知质量维度上的显著提升。此外,AIGV-Assessor在现有的AIGV数据库上也表现出优异的性能。

🎯 应用场景

AIGV-Assessor可应用于多种场景,例如评估文本生成视频模型的性能、优化AIGV的生成过程、以及为用户提供高质量的AIGV内容。该研究有助于提升AIGV的质量和用户体验,并推动AIGV技术的进一步发展。未来,该技术可以扩展到其他类型的生成视频质量评估。

📄 摘要(原文)

The rapid advancement of large multimodal models (LMMs) has led to the rapid expansion of artificial intelligence generated videos (AIGVs), which highlights the pressing need for effective video quality assessment (VQA) models designed specifically for AIGVs. Current VQA models generally fall short in accurately assessing the perceptual quality of AIGVs due to the presence of unique distortions, such as unrealistic objects, unnatural movements, or inconsistent visual elements. To address this challenge, we first present AIGVQA-DB, a large-scale dataset comprising 36,576 AIGVs generated by 15 advanced text-to-video models using 1,048 diverse prompts. With these AIGVs, a systematic annotation pipeline including scoring and ranking processes is devised, which collects 370k expert ratings to date. Based on AIGVQA-DB, we further introduce AIGV-Assessor, a novel VQA model that leverages spatiotemporal features and LMM frameworks to capture the intricate quality attributes of AIGVs, thereby accurately predicting precise video quality scores and video pair preferences. Through comprehensive experiments on both AIGVQA-DB and existing AIGV databases, AIGV-Assessor demonstrates state-of-the-art performance, significantly surpassing existing scoring or evaluation methods in terms of multiple perceptual quality dimensions.