S2SBench: A Benchmark for Quantifying Intelligence Degradation in Speech-to-Speech Large Language Models
作者: Yuanbo Fang, Haoze Sun, Jun Liu, Tao Zhang, Zenan Zhou, Weipeng Chen, Xiaofen Xing, Xiangmin Xu
分类: cs.SD, cs.CL, eess.AS
发布日期: 2025-05-20
🔗 代码/项目: GITHUB
💡 一句话要点
S2SBench:用于量化语音到语音大语言模型智能退化的基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音大语言模型 智能退化 基准测试 语音识别 自然语言处理 音频处理 句子补全 常识推理
📋 核心要点
- 现有语音LLM在处理音频输入时,推理和生成性能相较于文本输入有所下降,即存在“智能退化”现象,但缺乏系统性的评估方法。
- S2SBench基准测试旨在量化语音LLM的智能退化程度,通过诊断数据集和成对评估协议,系统评估模型在音频输入下的性能。
- 通过S2SBench分析Baichuan-Audio的训练过程,验证了该基准测试的有效性,为后续语音LLM的优化提供了参考。
📝 摘要(中文)
端到端语音大语言模型(LLM)将文本模型的能力扩展到直接处理和生成音频token。然而,与文本输入相比,这通常会导致推理和生成性能下降,这种现象被称为智能退化。为了系统地评估这种差距,我们提出了S2SBench,这是一个旨在量化语音LLM性能退化的基准测试。它包括针对音频输入下的句子补全和常识推理的诊断数据集。我们进一步引入了一种基于合理和不合理样本之间困惑度差异的成对评估协议,以衡量相对于文本输入的退化程度。我们应用S2SBench来分析Baichuan-Audio的训练过程,这进一步证明了该基准测试的有效性。所有数据集和评估代码均可在https://github.com/undobug/S2SBench获取。
🔬 方法详解
问题定义:论文旨在解决语音大语言模型(Speech LLM)在处理语音输入时,相较于文本输入,其推理和生成能力下降的问题,即“智能退化”现象。现有方法缺乏对这种退化的系统性量化评估,难以指导模型的优化。
核心思路:论文的核心思路是构建一个专门的基准测试S2SBench,通过设计针对性的诊断数据集和评估协议,量化语音LLM在处理语音输入时的性能损失。通过比较模型在语音和文本输入下的表现,评估智能退化的程度。
技术框架:S2SBench包含以下几个主要组成部分:1) 诊断数据集:包括句子补全和常识推理任务,用于评估模型在音频输入下的理解和推理能力。2) 成对评估协议:基于困惑度(perplexity)差异,比较模型对合理和不合理样本的区分能力,从而量化智能退化程度。3) 评估指标:使用困惑度差异作为主要评估指标,衡量模型在语音输入下的性能损失。
关键创新:S2SBench的关键创新在于:1) 首次提出并系统研究了语音LLM的“智能退化”问题。2) 构建了专门针对语音LLM的诊断数据集,涵盖了句子补全和常识推理等任务。3) 提出了基于困惑度差异的成对评估协议,能够有效量化智能退化程度。与现有方法相比,S2SBench更专注于评估语音LLM在处理语音输入时的性能损失。
关键设计:S2SBench的诊断数据集包含精心设计的合理和不合理样本,用于评估模型对语音输入的理解和推理能力。成对评估协议通过计算模型对合理和不合理样本的困惑度差异,量化智能退化程度。具体的困惑度计算方式和阈值设置需要根据不同的模型和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
论文通过在Baichuan-Audio上应用S2SBench,展示了该基准测试的有效性。实验结果表明,Baichuan-Audio在处理语音输入时,其推理和生成性能相较于文本输入有所下降,验证了智能退化现象的存在。S2SBench能够有效量化这种退化程度,为模型的优化提供了参考。
🎯 应用场景
S2SBench可用于评估和改进各种语音LLM,例如语音助手、语音翻译系统和语音内容生成工具。通过量化智能退化程度,可以指导模型训练和优化,提升语音LLM在实际应用中的性能和用户体验。该基准测试还有助于推动语音LLM领域的研究进展,促进更智能、更高效的语音处理技术的发展。
📄 摘要(原文)
End-to-end speech large language models ((LLMs)) extend the capabilities of text-based models to directly process and generate audio tokens. However, this often leads to a decline in reasoning and generation performance compared to text input, a phenomenon referred to as intelligence degradation. To systematically evaluate this gap, we propose S2SBench, a benchmark designed to quantify performance degradation in Speech LLMs. It includes diagnostic datasets targeting sentence continuation and commonsense reasoning under audio input. We further introduce a pairwise evaluation protocol based on perplexity differences between plausible and implausible samples to measure degradation relative to text input. We apply S2SBench to analyze the training process of Baichuan-Audio, which further demonstrates the benchmark's effectiveness. All datasets and evaluation code are available at https://github.com/undobug/S2SBench.