Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation
作者: Siyin Wang, Wenyi Yu, Yudong Yang, Changli Tang, Yixuan Li, Jimin Zhuang, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Guangzhi Sun, Lu Lu, Yuxuan Wang, Chao Zhang
分类: eess.AS, cs.CL, cs.SD
发布日期: 2024-09-25 (更新: 2025-04-01)
备注: Accepted by ICASSP 2025
🔗 代码/项目: GITHUB
💡 一句话要点
利用听觉大语言模型实现自动语音质量评估
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 听觉大语言模型 语音质量评估 平均意见得分 说话人相似度 自然语言描述
📋 核心要点
- 现有语音质量评估方法难以用单一小模型覆盖MOS、SIM等多方面指标,限制了评估的全面性。
- 利用听觉大语言模型,通过任务特定提示进行微调,使其能够预测MOS、SIM等指标,并生成自然语言描述。
- 实验表明,听觉LLM在MOS和SIM预测上可与SOTA小模型媲美,并在A/B测试和自然语言描述上表现出潜力。
📝 摘要(中文)
语音质量评估通常需要从多个方面评估音频,例如平均意见得分(MOS)和说话人相似度(SIM)等,这对于设计用于单个任务的小模型来说具有挑战性。本文提出利用最近引入的听觉大语言模型(LLM)进行自动语音质量评估。通过采用特定任务的提示,对听觉LLM进行微调,以预测MOS、SIM和A/B测试结果,这些结果通常用于评估文本到语音系统。此外,微调后的听觉LLM能够生成自然语言描述,评估诸如噪声、失真、不连续性和整体质量等各个方面,从而提供更具可解释性的输出。在NISQA、BVCC、SOMOS和VoxSim语音质量数据集上进行了广泛的实验,使用了开源听觉LLM,如SALMONN、Qwen-Audio和Qwen2-Audio。对于自然语言描述任务,还评估了商业模型Google Gemini 1.5 Pro。结果表明,在预测MOS和SIM方面,听觉LLM与最先进的特定任务小模型相比,取得了具有竞争力的性能,同时在A/B测试和自然语言描述方面也取得了有希望的结果。我们的数据处理脚本和微调模型检查点可在https://github.com/bytedance/SALMONN找到。
🔬 方法详解
问题定义:论文旨在解决自动语音质量评估问题,现有方法通常依赖于针对特定任务训练的小模型,这些模型难以同时评估语音的多个方面(如MOS、SIM等),且缺乏可解释性。现有方法的痛点在于泛化能力弱、评估维度单一以及缺乏自然语言解释能力。
核心思路:论文的核心思路是利用预训练的听觉大语言模型(Auditory LLM)的强大表征能力和生成能力,通过微调使其能够执行多种语音质量评估任务。通过设计合适的prompt,引导LLM完成MOS预测、SIM预测、A/B测试以及生成自然语言描述等任务。这样可以利用LLM的知识迁移能力,避免为每个任务单独训练模型。
技术框架:整体框架包括以下几个主要阶段:1)选择合适的预训练听觉LLM,例如SALMONN、Qwen-Audio、Qwen2-Audio等。2)针对不同的语音质量评估任务(MOS、SIM、A/B测试、自然语言描述),设计特定的prompt。3)使用相应的语音质量数据集对LLM进行微调,优化模型参数。4)使用微调后的LLM进行语音质量评估,并分析评估结果。对于自然语言描述任务,还使用了商业模型Google Gemini 1.5 Pro进行评估。
关键创新:最重要的技术创新点在于将听觉大语言模型应用于语音质量评估领域。与传统方法相比,该方法能够利用LLM的强大表征能力和生成能力,实现多任务的语音质量评估,并提供可解释的自然语言描述。本质区别在于,传统方法依赖于针对特定任务训练的小模型,而该方法利用预训练的LLM进行知识迁移和泛化。
关键设计:关键设计包括:1)针对不同任务设计合适的prompt,以引导LLM完成相应的评估任务。2)选择合适的损失函数进行微调,例如均方误差(MSE)用于MOS和SIM预测,交叉熵损失用于A/B测试。3)对于自然语言描述任务,采用生成式模型,并使用合适的解码策略生成高质量的描述文本。4)针对不同的LLM,调整微调参数,以获得最佳性能。
📊 实验亮点
实验结果表明,基于听觉LLM的语音质量评估方法在NISQA、BVCC、SOMOS和VoxSim等数据集上取得了具有竞争力的性能。在MOS和SIM预测方面,该方法与最先进的特定任务小模型相比,性能相当甚至略有提升。此外,该方法在A/B测试和自然语言描述方面也取得了有希望的结果,证明了听觉LLM在语音质量评估领域的潜力。
🎯 应用场景
该研究成果可应用于文本到语音(TTS)系统的质量评估、语音增强算法的性能评估、语音通信系统的质量监控等领域。通过自动化的语音质量评估,可以提高开发效率,降低人工评估成本,并为用户提供更好的语音体验。未来,该技术有望应用于更广泛的语音处理领域,例如语音识别、语音合成等。
📄 摘要(原文)
Speech quality assessment typically requires evaluating audio from multiple aspects, such as mean opinion score (MOS) and speaker similarity (SIM) \etc., which can be challenging to cover using one small model designed for a single task. In this paper, we propose leveraging recently introduced auditory large language models (LLMs) for automatic speech quality assessment. By employing task-specific prompts, auditory LLMs are finetuned to predict MOS, SIM and A/B testing results, which are commonly used for evaluating text-to-speech systems. Additionally, the finetuned auditory LLM is able to generate natural language descriptions assessing aspects like noisiness, distortion, discontinuity, and overall quality, providing more interpretable outputs. Extensive experiments have been performed on the NISQA, BVCC, SOMOS and VoxSim speech quality datasets, using open-source auditory LLMs such as SALMONN, Qwen-Audio, and Qwen2-Audio. For the natural language descriptions task, a commercial model Google Gemini 1.5 Pro is also evaluated. The results demonstrate that auditory LLMs achieve competitive performance compared to state-of-the-art task-specific small models in predicting MOS and SIM, while also delivering promising results in A/B testing and natural language descriptions. Our data processing scripts and finetuned model checkpoints can be found at https://github.com/bytedance/SALMONN.