AudioCapBench: Quick Evaluation on Audio Captioning across Sound, Music, and Speech

作者: Jielin Qiu, Jianguo Zhang, Zixiang Chen, Liangwei Yang, Ming Zhu, Juntao Tan, Haolin Chen, Wenting Zhao, Rithesh Murthy, Roshan Ram, Akshara Prabhakar, Shelby Heinecke, Caiming, Xiong, Silvio Savarese, Huan Wang

分类: cs.SD, cs.AI

发布日期: 2026-02-27

💡 一句话要点

AudioCapBench：一个用于快速评估跨声音、音乐和语音的音频字幕生成能力的基准。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音频字幕生成 多模态模型 评估基准 环境声音 音乐 语音 LLM-as-Judge

📋 核心要点

现有音频字幕生成缺乏统一的评估标准，难以全面衡量模型在不同音频领域的性能。
AudioCapBench通过构建包含环境声音、音乐和语音的综合基准，提供多维度的评估指标。
实验结果表明，Gemini模型整体性能更优，OpenAI模型幻觉率更低，且各模型在语音处理上表现最佳。

📝 摘要（中文）

本文介绍AudioCapBench，一个用于评估大型多模态模型音频字幕生成能力的基准。该基准覆盖三个不同的音频领域，包括环境声音、音乐和语音，包含从已建立的数据集中精心挑选的1000个评估样本。我们使用基于参考的指标（METEOR、BLEU、ROUGE-L）和一个LLM-as-Judge框架来评估来自两个提供商（OpenAI、Google Gemini）的13个模型，该框架在三个正交维度上对预测进行评分： extit{准确性}（语义正确性）、 extit{完整性}（参考内容的覆盖率）和 extit{幻觉}（不存在捏造的内容）。结果表明，Gemini模型在整体字幕质量上通常优于OpenAI模型，其中Gemini 3 Pro取得了最高的总分（6.00/10），而OpenAI模型的幻觉率较低。所有模型在语音字幕生成方面表现最佳，在音乐字幕生成方面表现最差。我们发布了该基准以及评估代码，以促进可重复的音频理解研究。

🔬 方法详解

问题定义：现有的音频字幕生成模型缺乏一个统一且全面的评估基准，尤其是在跨越不同音频领域（如环境声音、音乐和语音）时，难以准确评估模型的性能。此外，传统的评估指标可能无法充分捕捉字幕的语义准确性、内容完整性和是否存在幻觉等关键方面。

核心思路：AudioCapBench的核心思路是构建一个包含多样化音频数据（环境声音、音乐和语音）的基准数据集，并采用多维度的评估方法。这种方法不仅包括传统的基于参考的指标，还引入了基于大型语言模型（LLM）的评估框架，以更全面地评估字幕的质量。

技术框架：AudioCapBench的整体框架包括以下几个主要组成部分：1) 精心策划的包含1000个样本的评估数据集，涵盖环境声音、音乐和语音三个领域；2) 基于参考的评估指标，如METEOR、BLEU和ROUGE-L，用于衡量生成字幕与参考字幕之间的相似度；3) 基于LLM的评估框架，该框架使用LLM作为裁判，从准确性、完整性和幻觉三个维度对生成字幕进行评分。

关键创新：AudioCapBench的关键创新在于引入了基于LLM的评估框架，该框架能够更有效地评估生成字幕的语义准确性、内容完整性和是否存在幻觉。与传统的基于参考的指标相比，LLM-as-Judge方法能够更好地捕捉字幕的细微差别和语义信息。

关键设计：在基于LLM的评估框架中，使用了三个正交维度（准确性、完整性和幻觉）来对生成字幕进行评分。准确性衡量字幕的语义正确性，完整性衡量字幕对参考内容的覆盖程度，幻觉衡量字幕中是否存在捏造的内容。具体评分方式未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Gemini模型在整体字幕质量上优于OpenAI模型，Gemini 3 Pro取得了最高的总分（6.00/10），而OpenAI模型表现出较低的幻觉率。所有模型在语音字幕生成方面表现最佳，在音乐字幕生成方面表现最差。这些结果为未来音频字幕生成模型的设计和优化提供了重要参考。

🎯 应用场景

AudioCapBench可用于评估和比较不同音频字幕生成模型，推动该领域的研究进展。该基准能够帮助研究人员开发更准确、更完整、更可靠的音频字幕生成系统，应用于智能助手、音视频内容分析、辅助听力等领域，提升用户体验和信息获取效率。

📄 摘要（原文）

We introduce AudioCapBench, a benchmark for evaluating audio captioning capabilities of large multimodal models. \method covers three distinct audio domains, including environmental sound, music, and speech, with 1,000 curated evaluation samples drawn from established datasets. We evaluate 13 models across two providers (OpenAI, Google Gemini) using both reference-based metrics (METEOR, BLEU, ROUGE-L) and an LLM-as-Judge framework that scores predictions on three orthogonal dimensions: \textit{accuracy} (semantic correctness), \textit{completeness} (coverage of reference content), and \textit{hallucination} (absence of fabricated content). Our results reveal that Gemini models generally outperform OpenAI models on overall captioning quality, with Gemini~3~Pro achieving the highest overall score (6.00/10), while OpenAI models exhibit lower hallucination rates. All models perform best on speech captioning and worst on music captioning. We release the benchmark as well as evaluation code to facilitate reproducible audio understanding research.

AudioCapBench: Quick Evaluation on Audio Captioning across Sound, Music, and Speech

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理