AGAV-Rater: Adapting Large Multimodal Model for AI-Generated Audio-Visual Quality Assessment

📄 arXiv: 2501.18314v2 📥 PDF

作者: Yuqin Cao, Xiongkuo Min, Yixuan Gao, Wei Sun, Guangtao Zhai

分类: cs.MM, cs.CV, cs.SD, eess.AS

发布日期: 2025-01-30 (更新: 2025-07-14)

🔗 代码/项目: GITHUB


💡 一句话要点

提出AGAV-Rater,利用大型多模态模型评估AI生成音视频质量,提升用户体验。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成内容 音视频质量评估 多模态学习 大型多模态模型 视频配音

📋 核心要点

  1. 现有音视频质量评估方法难以有效评估AI生成音视频(AGAV)中特有的失真,如不真实和内容不一致等问题。
  2. 提出AGAV-Rater,利用大型多模态模型对AGAV进行多维度质量评估,并选择最佳结果呈现给用户。
  3. AGAV-Rater在多个数据集上取得SOTA性能,并通过主观测试验证了其在提升VTA性能和用户体验方面的有效性。

📝 摘要(中文)

针对AI生成视频配音(VTA)方法产生的音视频质量评估问题,现有方法难以处理AGAV中不真实和不一致的独特失真。本文构建了首个大规模AGAV质量评估数据集AGAVQA-3k,包含来自16种VTA方法的3382个AGAV样本,分为AGAVQA-MOS(提供音频质量、内容一致性和整体质量的多维度评分)和AGAVQA-Pair(用于最佳AGAV对选择)两个子集。进一步提出了基于大型多模态模型(LMM)的AGAV-Rater,可以对AGAV以及文本生成的音频和音乐进行多维度评分,并选择最佳AGAV呈现给用户。AGAV-Rater在AGAVQA-3k、Text-to-Audio和Text-to-Music数据集上取得了最先进的性能。主观测试也证实AGAV-Rater增强了VTA性能和用户体验。

🔬 方法详解

问题定义:现有音视频质量评估方法在评估AI生成的音视频内容(AGAV)时,无法有效捕捉AGAV中特有的失真,例如音频与视频内容的不一致、生成内容的不真实感等。这些问题导致现有方法在AGAV质量评估上的准确性较低,无法满足实际应用的需求。

核心思路:本文的核心思路是利用大型多模态模型(LMM)强大的表征学习能力,同时处理音频和视频信息,从而更准确地评估AGAV的质量。通过对LMM进行微调,使其能够理解AGAV中音频和视频之间的关系,并对内容一致性、真实性等关键因素进行评估。

技术框架:AGAV-Rater的整体框架包含以下几个主要模块:1) 音视频特征提取模块:使用预训练的音频和视频特征提取器,分别提取AGAV的音频和视频特征。2) 多模态融合模块:将提取的音频和视频特征进行融合,得到AGAV的联合表示。3) 质量评估模块:使用微调后的LMM对AGAV的联合表示进行质量评估,输出音频质量、内容一致性和整体质量等多维度评分。4) 最佳AGAV选择模块:根据质量评估结果,选择最佳的AGAV呈现给用户。

关键创新:本文最重要的技术创新点在于将大型多模态模型应用于AGAV质量评估任务。与传统的音视频质量评估方法相比,AGAV-Rater能够更好地理解AGAV中音频和视频之间的复杂关系,从而更准确地评估AGAV的质量。此外,本文还构建了首个大规模AGAV质量评估数据集AGAVQA-3k,为AGAV质量评估研究提供了重要的数据支撑。

关键设计:AGAV-Rater的关键设计包括:1) 使用预训练的CLIP模型作为视频特征提取器,使用预训练的PANNs模型作为音频特征提取器。2) 使用Transformer网络进行多模态特征融合。3) 使用AGAVQA-3k数据集对LMM进行微调,优化模型的质量评估能力。4) 使用均方误差(MSE)损失函数训练模型,最小化预测评分与主观评分之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AGAV-Rater在AGAVQA-3k数据集上取得了SOTA性能,显著优于现有音视频质量评估方法。在Text-to-Audio和Text-to-Music数据集上,AGAV-Rater也表现出强大的泛化能力。主观测试表明,使用AGAV-Rater选择的AGAV能够显著提升用户体验。

🎯 应用场景

AGAV-Rater可应用于AI生成内容质量控制、视频编辑、游戏开发等领域。通过自动评估AI生成音视频的质量,可以帮助开发者快速迭代优化算法,提升用户体验。此外,该方法还可用于自动选择最佳的AI生成内容,减少人工筛选成本,提高生产效率。

📄 摘要(原文)

Many video-to-audio (VTA) methods have been proposed for dubbing silent AI-generated videos. An efficient quality assessment method for AI-generated audio-visual content (AGAV) is crucial for ensuring audio-visual quality. Existing audio-visual quality assessment methods struggle with unique distortions in AGAVs, such as unrealistic and inconsistent elements. To address this, we introduce AGAVQA-3k, the first large-scale AGAV quality assessment dataset, comprising $3,382$ AGAVs from $16$ VTA methods. AGAVQA-3k includes two subsets: AGAVQA-MOS, which provides multi-dimensional scores for audio quality, content consistency, and overall quality, and AGAVQA-Pair, designed for optimal AGAV pair selection. We further propose AGAV-Rater, a LMM-based model that can score AGAVs, as well as audio and music generated from text, across multiple dimensions, and selects the best AGAV generated by VTA methods to present to the user. AGAV-Rater achieves state-of-the-art performance on AGAVQA-3k, Text-to-Audio, and Text-to-Music datasets. Subjective tests also confirm that AGAV-Rater enhances VTA performance and user experience. The dataset and code is available at https://github.com/charlotte9524/AGAV-Rater.