JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions

作者: Leying Zhang, Bowen Shi, Haibin Wu, Bach Viet Do, Yanmin Qian

分类: eess.AS, cs.AI, cs.SD

发布日期: 2026-05-06

💡 一句话要点

JASTIN：通过自然语言指令对齐LLM，实现零样本音频和语音评估

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音频评估 大型语言模型 零样本学习 指令学习 多模态学习

📋 核心要点

现有音频评估方法在领域泛化和零样本能力方面存在不足，通用多模态大语言模型难以灵活应对指令。
JASTIN通过可训练的音频适配器连接音频编码器和LLM，利用指令驱动的推理任务进行音频评估。
JASTIN在多个音频评估任务上取得了SOTA结果，无需针对特定任务进行重新训练，展现了强大的泛化能力。

📝 摘要（中文）

生成音频模型的快速发展已经超过了鲁棒评估方法的发展。现有的客观指标和通用多模态大型语言模型(MLLM)通常难以应对领域泛化、零样本能力和指令灵活性。为了解决这些瓶颈，我们提出了JASTIN，一个可泛化的、指令驱动的音频评估框架，它将音频评估形式化为一个自我指导的推理任务。JASTIN通过一个可训练的音频适配器，将一个冻结的高性能音频编码器与一个微调的LLM主干连接起来。为了确保鲁棒的零样本泛化，我们引入了一个全面的指令跟随数据准备流程，包含多源、多任务、多校准和多描述数据。实验结果表明，JASTIN在与人类主观评分的Pearson和Spearman相关性方面达到了最先进的水平。它在语音、声音、音乐和领域外评估任务中始终优于通用MLLM，而无需特定于任务的重新训练。

🔬 方法详解

问题定义：现有音频评估方法，包括客观指标和通用多模态大语言模型，在领域泛化能力、零样本能力以及对指令的灵活响应方面存在局限性。具体来说，这些方法难以适应不同类型的音频数据（如语音、音乐、环境声音）以及在没有特定任务训练数据的情况下进行准确评估。

核心思路：JASTIN的核心思路是将音频评估问题转化为一个指令驱动的推理任务。通过自然语言指令，引导大型语言模型(LLM)对音频内容进行理解和评估。这种方法利用了LLM强大的语言理解和推理能力，使其能够根据指令灵活地执行各种音频评估任务。

技术框架：JASTIN框架主要包含三个核心模块：1) 冻结的高性能音频编码器，用于提取音频特征；2) 可训练的音频适配器，用于将音频特征映射到LLM的输入空间；3) 微调的LLM主干，用于根据指令对音频进行评估。整个流程是：音频输入首先通过音频编码器提取特征，然后通过音频适配器转换为LLM可以理解的表示，最后LLM根据给定的指令生成评估结果。

关键创新：JASTIN的关键创新在于其指令驱动的评估方式和数据准备流程。通过精心设计的指令，可以引导LLM执行各种音频评估任务，而无需针对每个任务进行单独训练。此外，论文还提出了一个全面的指令跟随数据准备流程，包括多源、多任务、多校准和多描述数据，以确保LLM具有强大的零样本泛化能力。

关键设计：为了确保LLM能够有效地理解和利用音频信息，论文设计了一个可训练的音频适配器。该适配器的具体结构未知，但其作用是将音频编码器的输出映射到LLM的输入空间，使得LLM能够更好地理解音频内容。此外，论文还强调了指令设计的重要性，通过精心设计的指令，可以引导LLM执行各种音频评估任务。

🖼️ 关键图片

📊 实验亮点

实验结果表明，JASTIN在与人类主观评分的Pearson和Spearman相关性方面达到了最先进的水平。更重要的是，JASTIN在语音、声音、音乐和领域外评估任务中始终优于通用MLLM，而无需特定于任务的重新训练，这充分证明了JASTIN的泛化能力和零样本评估能力。

🎯 应用场景

JASTIN可应用于各种音频和语音相关的评估场景，例如语音质量评估、音乐生成质量评估、环境声音识别系统评估等。该研究的实际价值在于提供了一种通用的、无需特定任务训练的音频评估方法，可以大大降低评估成本，并提高评估效率。未来，JASTIN有望成为音频和语音领域的重要评估工具，推动相关技术的发展。

📄 摘要（原文）

The rapid advancement of generative audio models has outpaced the development of robust evaluation methodologies. Existing objective metrics and general multimodal large language models (MLLMs) often struggle with domain generalization, zero-shot capabilities, and instructional flexibility. To address these bottlenecks, we propose JASTIN, a generalizable, instruction-driven audio evaluation framework that formulates audio assessment as a self-instructed reasoning task. JASTIN bridges a frozen high-performance audio encoder with a fine-tuned LLM backbone via a trainable audio adapter. To ensure robust zero-shot generalization, we introduce a comprehensive instruction following data preparation pipeline, incorporating Multi-Source, Multi-Task, Multi-Calibration, and Multi-Description data. Experimental results demonstrate that JASTIN achieves state-of-the-art Pearson and Spearman correlations with human subjective ratings. It consistently outperforms general MLLMs across speech, sound, music, and out-of-domain evaluation tasks without the need for task-specific retraining.

JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理