AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

作者: Ziwei Zhou, Zeyuan Lai, Rui Wang, Yifan Yang, Zhen Xing, Yuqing Yang, Qi Dai, Lili Qiu, Chong Luo

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-04-09

💡 一句话要点

AVGen-Bench：一个面向多粒度评估的文本到音视频生成任务驱动型基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到音视频生成 多粒度评估 任务驱动基准 多模态大型语言模型 语义一致性 视听美学 生成模型评估

📋 核心要点

现有T2AV评估方法缺乏细粒度的联合评估能力，无法准确反映真实场景下的生成质量。
AVGen-Bench通过构建高质量提示和多粒度评估框架，实现对T2AV生成模型的全面评估。
实验表明，现有模型在视听美学表现良好，但在语义可靠性方面存在显著不足，尤其是在文本渲染和物理推理等方面。

📝 摘要（中文）

文本到音视频(T2AV)生成正迅速成为媒体创作的核心接口，但其评估仍然分散。现有的基准主要孤立地评估音频和视频，或者依赖于粗糙的嵌入相似性，无法捕捉到真实提示所需的细粒度联合正确性。我们引入了AVGen-Bench，这是一个任务驱动的T2AV生成基准，具有跨11个真实世界类别的高质量提示。为了支持全面的评估，我们提出了一个多粒度评估框架，该框架将轻量级专家模型与多模态大型语言模型(MLLM)相结合，从而能够从感知质量到细粒度的语义可控性进行评估。我们的评估揭示了强大的视听美学和薄弱的语义可靠性之间的明显差距，包括文本渲染、语音连贯性、物理推理方面的持续失败，以及音乐音高控制方面的普遍崩溃。代码和基准资源可在http://aka.ms/avgenbench获得。

🔬 方法详解

问题定义：现有文本到音视频（T2AV）生成模型的评估方法存在局限性。它们通常孤立地评估音频和视频质量，或者使用粗粒度的嵌入相似度，无法捕捉到音视频之间细粒度的语义一致性和真实世界场景的复杂性。因此，如何设计一个能够全面、细致地评估T2AV生成模型的基准是一个关键问题。

核心思路：AVGen-Bench的核心思路是构建一个任务驱动的多粒度评估框架。它通过设计高质量的、涵盖多个真实世界类别的提示，并结合轻量级专家模型和多模态大型语言模型（MLLMs），从感知质量到细粒度的语义可控性对T2AV生成模型进行评估。这种方法旨在弥补现有评估方法在细粒度语义理解和联合评估方面的不足。

技术框架：AVGen-Bench的整体框架包括以下几个主要组成部分：1) 高质量提示数据集：包含11个真实世界类别，提供多样化的文本描述，用于指导T2AV生成；2) 轻量级专家模型：用于评估音频和视频的感知质量，例如清晰度、真实性等；3) 多模态大型语言模型（MLLMs）：用于评估音视频内容与文本描述之间的语义一致性，包括文本渲染、语音连贯性、物理推理和音乐音高控制等方面。评估流程包括：输入文本提示，生成音视频，然后使用专家模型和MLLMs进行多粒度评估，最后汇总评估结果。

关键创新：AVGen-Bench的关键创新在于其多粒度评估框架，它结合了轻量级专家模型和多模态大型语言模型，实现了对T2AV生成模型的全面评估。与现有方法相比，AVGen-Bench不仅关注音视频的感知质量，更注重音视频内容与文本描述之间的细粒度语义一致性。此外，AVGen-Bench还构建了一个高质量的提示数据集，涵盖多个真实世界类别，为T2AV生成模型的评估提供了更具挑战性的场景。

关键设计：AVGen-Bench的关键设计包括：1) 提示数据集的设计：确保提示的多样性和真实性，涵盖多个真实世界类别；2) 专家模型的选择：选择能够有效评估音视频感知质量的轻量级模型；3) MLLMs的使用：利用MLLMs强大的语义理解能力，评估音视频内容与文本描述之间的语义一致性；4) 评估指标的设计：设计能够反映音视频生成质量各个方面的评估指标，例如文本渲染准确率、语音连贯性评分、物理推理正确率和音乐音高控制精度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有T2AV生成模型在视听美学方面表现较好，但在语义可靠性方面存在显著不足。例如，在文本渲染、语音连贯性、物理推理和音乐音高控制等方面都存在明显的缺陷。这表明，未来的研究需要更加关注T2AV生成模型的语义理解和控制能力，以提高生成内容的真实性和可信度。

🎯 应用场景

AVGen-Bench可应用于评估和改进文本到音视频生成模型，推动该技术在媒体创作、娱乐、教育等领域的应用。例如，可以用于生成个性化的音乐视频、创建虚拟现实体验、辅助语言学习等。通过不断提升T2AV生成模型的性能，可以为用户提供更加丰富、生动的多媒体内容。

📄 摘要（原文）

Text-to-Audio-Video (T2AV) generation is rapidly becoming a core interface for media creation, yet its evaluation remains fragmented. Existing benchmarks largely assess audio and video in isolation or rely on coarse embedding similarity, failing to capture the fine-grained joint correctness required by realistic prompts. We introduce AVGen-Bench, a task-driven benchmark for T2AV generation featuring high-quality prompts across 11 real-world categories. To support comprehensive assessment, we propose a multi-granular evaluation framework that combines lightweight specialist models with Multimodal Large Language Models (MLLMs), enabling evaluation from perceptual quality to fine-grained semantic controllability. Our evaluation reveals a pronounced gap between strong audio-visual aesthetics and weak semantic reliability, including persistent failures in text rendering, speech coherence, physical reasoning, and a universal breakdown in musical pitch control. Code and benchmark resources are available at http://aka.ms/avgenbench.

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理