T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

作者: Zhe Cao, Tao Wang, Jiaming Wang, Yanghai Wang, Yuanxing Zhang, Jialu Chen, Miao Deng, Jiahao Wang, Yubin Guo, Chenxi Liao, Yize Zhang, Zhaoxiang Zhang, Jiaheng Liu

分类: cs.CV

发布日期: 2025-12-24

💡 一句话要点

提出T2AV-Compass，用于统一评估文本到音视频生成模型的性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到音视频生成 多模态评估 统一基准 跨模态对齐 指令遵循 感知真实感 MLLM评估

📋 核心要点

现有T2AV评估方法分散，缺乏统一基准，难以全面衡量跨模态对齐、指令遵循和感知真实感。
提出T2AV-Compass，构建包含500个复杂提示的基准，并设计双层评估框架，综合客观指标和主观评估。
实验表明现有模型在真实感和跨模态一致性方面存在不足，验证了T2AV-Compass的有效性和诊断价值。

📝 摘要（中文）

文本到音视频生成(T2AV)旨在从自然语言合成时间连贯的视频和语义同步的音频，但其评估仍然是分散的，通常依赖于单模态指标或范围狭窄的基准，无法捕捉跨模态对齐、指令遵循以及复杂提示下的感知真实感。为了解决这个局限性，我们提出了T2AV-Compass，这是一个统一的基准，用于全面评估T2AV系统，包含500个多样且复杂的提示，这些提示通过分类驱动的流程构建，以确保语义丰富性和物理合理性。此外，T2AV-Compass引入了一个双层评估框架，该框架集成了用于视频质量、音频质量和跨模态对齐的客观信号级指标，以及用于指令遵循和真实感评估的主观MLLM-as-a-Judge协议。对11个具有代表性的T2AV系统的广泛评估表明，即使是最强大的模型也远未达到人类水平的真实感和跨模态一致性，在音频真实感、细粒度同步、指令遵循等方面存在持续的失败。这些结果表明未来模型有很大的改进空间，并突出了T2AV-Compass作为具有挑战性和诊断性的测试平台，对于推进文本到音视频生成的重要价值。

🔬 方法详解

问题定义：文本到音视频生成(T2AV)旨在根据文本描述生成对应的音视频内容。现有的评估方法主要存在以下痛点：一是评估指标单一，通常只关注视频或音频的质量，忽略了跨模态的对齐；二是缺乏统一的、具有挑战性的基准数据集，难以全面评估模型的性能，尤其是在复杂场景下的指令遵循和真实感。

核心思路：T2AV-Compass的核心思路是构建一个统一的、全面的评估基准，并设计一个双层评估框架，从而更准确地评估T2AV模型的性能。通过构建多样且复杂的提示，确保基准的语义丰富性和物理合理性。双层评估框架结合了客观指标和主观评估，从而更全面地衡量模型的性能。

技术框架：T2AV-Compass主要包含两个部分：基准数据集的构建和双层评估框架的设计。基准数据集的构建采用分类驱动的流程，确保提示的多样性和复杂性。双层评估框架包含客观信号级指标和主观MLLM-as-a-Judge协议。客观指标用于评估视频和音频的质量以及跨模态的对齐程度，主观评估则用于评估模型的指令遵循能力和生成内容的真实感。

关键创新：T2AV-Compass的关键创新在于：一是构建了一个统一的、全面的T2AV评估基准，填补了现有评估方法的空白；二是设计了一个双层评估框架，结合了客观指标和主观评估，从而更准确地评估模型的性能。与现有方法相比，T2AV-Compass能够更全面地评估T2AV模型的性能，尤其是在复杂场景下的指令遵循和真实感方面。

关键设计：在基准数据集的构建方面，采用了分类驱动的流程，确保提示的多样性和复杂性。在双层评估框架的设计方面，客观指标包括视频质量指标（如PSNR、SSIM）、音频质量指标（如PESQ、STOI）和跨模态对齐指标（如CLIP score）。主观评估则采用MLLM-as-a-Judge协议，利用大型语言模型对生成内容的指令遵循能力和真实感进行评估。具体的参数设置和损失函数等技术细节取决于具体的T2AV模型。

🖼️ 关键图片

📊 实验亮点

对11个T2AV系统的评估表明，现有模型在音频真实感、细粒度同步和指令遵循方面存在显著不足，与人类水平存在较大差距。例如，在主观评估中，现有模型的真实感得分远低于人类水平。这些结果突显了T2AV-Compass作为诊断工具的价值，并为未来的模型改进指明了方向。

🎯 应用场景

T2AV-Compass可广泛应用于评估和改进文本到音视频生成模型，推动该领域的发展。其潜在应用包括：内容创作、虚拟现实、游戏开发、教育娱乐等。通过更准确地评估模型性能，可以促进生成更逼真、更符合用户需求的音视频内容，提升用户体验。

📄 摘要（原文）

Text-to-Audio-Video (T2AV) generation aims to synthesize temporally coherent video and semantically synchronized audio from natural language, yet its evaluation remains fragmented, often relying on unimodal metrics or narrowly scoped benchmarks that fail to capture cross-modal alignment, instruction following, and perceptual realism under complex prompts. To address this limitation, we present T2AV-Compass, a unified benchmark for comprehensive evaluation of T2AV systems, consisting of 500 diverse and complex prompts constructed via a taxonomy-driven pipeline to ensure semantic richness and physical plausibility. Besides, T2AV-Compass introduces a dual-level evaluation framework that integrates objective signal-level metrics for video quality, audio quality, and cross-modal alignment with a subjective MLLM-as-a-Judge protocol for instruction following and realism assessment. Extensive evaluation of 11 representative T2AVsystems reveals that even the strongest models fall substantially short of human-level realism and cross-modal consistency, with persistent failures in audio realism, fine-grained synchronization, instruction following, etc. These results indicate significant improvement room for future models and highlight the value of T2AV-Compass as a challenging and diagnostic testbed for advancing text-to-audio-video generation.

T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理