How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

作者: Ke-Han Lu, Szu-Wei Fu, Chao-Han Huck Yang, Zhehuai Chen, Sung-Feng Huang, Chih-Kai Yang, Yi-Cheng Lin, Chi-Yuan Hsiao, Wenze Ren, En-Pei Hu, Yu-Han Huang, An-Yu Cheng, Cheng-Han Chiang, Yu Tsao, Yu-Chiang Frank Wang, Hung-yi Lee

分类: eess.AS, cs.CL, cs.SD

发布日期: 2026-03-19

备注: Project website: https://kehanlu.github.io/AKB

💡 一句话要点

探究LLM先验听觉知识对音频语言模型的影响：一个全面评估

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 音频语言模型 听觉知识 模型评估 迁移学习

📋 核心要点

现有研究对LLM在纯文本预训练中获得的听觉知识及其对LALM性能的影响缺乏清晰认知。
该研究通过设计多种评估方法，探究不同LLM所蕴含的听觉知识及其对音频任务的影响。
实验结果表明，LLM的听觉知识因模型而异，且纯文本评估结果与音频任务性能高度相关。

📝 摘要（中文）

大型语言模型（LLM）已被广泛用作大型音频语言模型（LALM）的知识骨干，但它们通过纯文本预训练编码了多少听觉知识，以及这如何影响下游性能，目前尚不清楚。我们通过在两种纯文本设置和一种音频对齐设置下比较不同的LLM来研究这一差距：（1）直接在AKB-2000上进行探测，这是一个经过精心设计的基准，用于测试听觉知识的广度和深度；（2）级联评估，其中LLM对来自音频字幕器的文本描述进行推理；（3）音频对齐评估，其中每个LLM都被微调成一个带有音频编码器的LALM。我们的研究结果表明，听觉知识在不同模型家族之间差异很大，并且纯文本结果与音频性能密切相关。我们的工作为全面理解音频研究中的LLM提供了经验基础。

🔬 方法详解

问题定义：现有的大型音频语言模型（LALM）通常以大型语言模型（LLM）作为知识骨干。然而，LLM在仅使用文本数据进行预训练时，究竟学习到了多少关于音频的知识，以及这些知识如何影响LALM的性能，是一个尚未充分研究的问题。现有方法缺乏对LLM中听觉知识的系统性评估，难以指导LALM的构建和优化。

核心思路：该论文的核心思路是通过多种评估方法，系统性地探究不同LLM所蕴含的听觉知识。通过比较不同LLM在文本和音频任务上的表现，揭示LLM的听觉知识与其在LALM中的性能之间的关系。这种方法能够帮助研究人员更好地理解LLM在音频领域的潜力，并为LALM的设计提供指导。

技术框架：该研究采用了三种评估方法：(1) 直接探测：使用AKB-2000基准测试LLM的听觉知识；(2) 级联评估：利用音频字幕器生成文本描述，然后让LLM基于这些描述进行推理；(3) 音频对齐评估：将LLM微调成LALM，并评估其在音频任务上的性能。通过比较不同LLM在这三种评估方法下的表现，可以全面地了解LLM的听觉知识及其对音频任务的影响。

关键创新：该研究的关键创新在于其系统性的评估方法，它不仅考虑了LLM在文本上的表现，还考虑了其在音频任务上的表现。通过比较不同LLM在不同评估方法下的表现，该研究揭示了LLM的听觉知识与其在LALM中的性能之间的关系。此外，该研究还使用了AKB-2000基准，这是一个专门用于测试听觉知识的基准，可以更准确地评估LLM的听觉知识。

关键设计：AKB-2000基准包含多种听觉知识测试，涵盖声音事件识别、乐器识别、环境声音理解等多个方面。在音频对齐评估中，使用了标准的音频编码器将音频信号转换为向量表示，然后将其输入到LLM中进行微调。微调的目标是让LLM能够根据音频信号生成相应的文本描述。损失函数通常采用交叉熵损失或连接时序分类（CTC）损失。

🖼️ 关键图片

📊 实验亮点

实验结果表明，不同LLM的听觉知识差异显著，例如某些模型在AKB-2000基准上的表现明显优于其他模型。更重要的是，纯文本评估结果与音频任务性能高度相关，这意味着可以通过纯文本评估来预测LLM在LALM中的表现。例如，在音频对齐评估中，在AKB-2000上表现更好的LLM，其微调后的LALM在音频任务上也表现更好。

🎯 应用场景

该研究成果可应用于提升大型音频语言模型（LALM）的性能，例如语音识别、音乐生成、声音事件检测等。通过选择具有更强听觉知识的LLM作为骨干，或通过针对性地增强LLM的听觉知识，可以显著提高LALM在各种音频任务中的表现。此外，该研究的评估方法也可以用于评估其他LLM在音频领域的潜力。

📄 摘要（原文）

Large language models (LLMs) have been widely used as knowledge backbones of Large Audio Language Models (LALMs), yet how much auditory knowledge they encode through text-only pre-training and how this affects downstream performance remains unclear. We study this gap by comparing different LLMs under two text-only and one audio-grounded setting: (1) direct probing on AKB-2000, a curated benchmark testing the breadth and depth of auditory knowledge; (2) cascade evaluation, where LLMs reason over text descriptions from an audio captioner; and (3) audio-grounded evaluation, where each LLM is fine-tuned into a Large Audio Language Model (LALM) with an audio encoder. Our findings reveal that auditory knowledge varies substantially across families, and text-only results are strongly correlated with audio performance. Our work provides empirical grounding for a comprehensive understanding of LLMs in audio research.

How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理