T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

作者: Zhe Cao, Tao Wang, Jiaming Wang, Yanghai Wang, Yuanxing Zhang, Jialu Chen, Miao Deng, Jiahao Wang, Yubin Guo, Chenxi Liao, Yize Zhang, Zhaoxiang Zhang, Jiaheng Liu

分类: cs.CV

发布日期: 2025-12-24

💡 一句话要点

提出T2AV-Compass，用于统一评估文本到音视频生成模型的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到音视频生成 多模态评估 统一基准 跨模态对齐 指令遵循 真实感评估 大型语言模型 客观指标

📋 核心要点

现有T2AV评估方法依赖单模态指标或窄范围基准，无法全面评估跨模态对齐、指令遵循和真实感。
T2AV-Compass构建了一个包含500个复杂提示的统一基准，并结合客观指标和主观评估的双层框架。
实验表明现有T2AV模型在真实感和跨模态一致性方面存在不足，T2AV-Compass可有效诊断这些问题。

📝 摘要（中文）

文本到音视频生成(T2AV)旨在从自然语言合成时间连贯的视频和语义同步的音频，但其评估仍然是分散的，通常依赖于单模态指标或范围狭窄的基准，无法捕捉跨模态对齐、指令遵循以及复杂提示下的感知真实感。为了解决这个局限性，我们提出了T2AV-Compass，一个统一的基准，用于全面评估T2AV系统，包含500个多样且复杂的提示，这些提示通过分类驱动的流程构建，以确保语义丰富性和物理合理性。此外，T2AV-Compass引入了一个双层评估框架，该框架集成了用于视频质量、音频质量和跨模态对齐的客观信号级指标，以及用于指令遵循和真实感评估的主观MLLM-as-a-Judge协议。对11个代表性T2AV系统的广泛评估表明，即使是最强大的模型也远未达到人类水平的真实感和跨模态一致性，在音频真实感、细粒度同步、指令遵循等方面存在持续的失败。这些结果表明未来模型有很大的改进空间，并突出了T2AV-Compass作为具有挑战性和诊断性的测试平台，对于推进文本到音视频生成的重要价值。

🔬 方法详解

问题定义：T2AV-Compass旨在解决文本到音视频生成（T2AV）领域缺乏统一、全面的评估基准的问题。现有评估方法要么侧重于单模态（音频或视频）的质量评估，要么使用范围有限的基准数据集，无法有效衡量模型在跨模态对齐、指令遵循以及生成内容真实感等方面的综合能力。现有方法的痛点在于无法准确反映T2AV模型的实际性能，阻碍了该领域的发展。

核心思路：T2AV-Compass的核心思路是构建一个多样化、复杂化的测试数据集，并设计一个双层评估框架，从客观和主观两个层面全面评估T2AV模型的性能。通过精心设计的提示语，考察模型对复杂指令的理解和执行能力，以及生成音视频在语义一致性和感知真实感方面的表现。这种设计旨在更贴近实际应用场景，从而更准确地评估模型的优劣。

技术框架：T2AV-Compass的整体框架包含两个主要组成部分：一是数据集构建，二是评估框架。数据集构建采用分类驱动的流程，确保提示语在语义和物理上的合理性。评估框架则分为两个层次：第一层是客观评估，使用信号级别的指标来衡量视频和音频的质量，以及跨模态的对齐程度；第二层是主观评估，利用大型语言模型（MLLM）作为裁判，评估生成内容在指令遵循和真实感方面的表现。

关键创新：T2AV-Compass的关键创新在于其统一的评估视角和双层评估框架。它不仅考虑了单模态的质量，更关注跨模态的语义一致性和时间同步性。此外，引入MLLM作为主观评估者，能够更有效地捕捉人类对生成内容真实感的感知。与现有方法相比，T2AV-Compass能够更全面、更准确地评估T2AV模型的性能。

关键设计：在数据集构建方面，T2AV-Compass采用了分类驱动的方法，确保提示语的多样性和复杂性。在评估框架方面，客观指标包括PSNR、SSIM等用于衡量视频质量，PESQ、STOI等用于衡量音频质量，以及CLIP score等用于衡量跨模态对齐。主观评估则通过设计特定的prompt，让MLLM对生成内容的指令遵循程度和真实感进行评分。

📊 实验亮点

对11个代表性T2AV系统的评估表明，现有模型在音频真实感、细粒度同步和指令遵循方面存在显著不足。即使是最强的模型也远未达到人类水平的真实感和跨模态一致性。例如，在主观评估中，现有模型的真实感得分普遍较低，表明未来模型有很大的提升空间。T2AV-Compass的评估结果为未来T2AV模型的研究方向提供了重要参考。

🎯 应用场景

T2AV-Compass可用于评估和改进文本到音视频生成模型，推动该技术在娱乐、教育、广告等领域的应用。例如，可以用于自动生成电影预告片、制作教学视频、创建个性化广告等。该基准的推出将加速T2AV技术的发展，并促进其在实际场景中的广泛应用。

📄 摘要（原文）

Text-to-Audio-Video (T2AV) generation aims to synthesize temporally coherent video and semantically synchronized audio from natural language, yet its evaluation remains fragmented, often relying on unimodal metrics or narrowly scoped benchmarks that fail to capture cross-modal alignment, instruction following, and perceptual realism under complex prompts. To address this limitation, we present T2AV-Compass, a unified benchmark for comprehensive evaluation of T2AV systems, consisting of 500 diverse and complex prompts constructed via a taxonomy-driven pipeline to ensure semantic richness and physical plausibility. Besides, T2AV-Compass introduces a dual-level evaluation framework that integrates objective signal-level metrics for video quality, audio quality, and cross-modal alignment with a subjective MLLM-as-a-Judge protocol for instruction following and realism assessment. Extensive evaluation of 11 representative T2AVsystems reveals that even the strongest models fall substantially short of human-level realism and cross-modal consistency, with persistent failures in audio realism, fine-grained synchronization, instruction following, etc. These results indicate significant improvement room for future models and highlight the value of T2AV-Compass as a challenging and diagnostic testbed for advancing text-to-audio-video generation.

T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册