Lost in Phonation: Voice Quality Variation as an Evaluation Dimension for Speech Foundation Models
作者: Harm Lameris, Shree Harsha Bokkahalli Satish, Joakim Gustafson, Éva Székely
分类: eess.AS, cs.AI, cs.CL
发布日期: 2025-10-29
备注: 8 pages, 3 figures, 4 tables, submitted to LREC 2026
💡 一句话要点
提出语音质量评估方法,用于评估语音基础模型对音质变化的敏感性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音基础模型 语音质量评估 超语言特征 语音情感识别 开放式生成 并行数据集 耳语声 气声
📋 核心要点
- 现有语音理解基准测试方法(如MCQA)难以捕捉语音基础模型对语音质量等超语言特征的细微变化。
- 该论文提出一种基于开放式生成任务和语音情感识别的评估方法,用于评估语音基础模型对不同语音质量的响应。
- 论文构建了一个新的并行数据集,包含合成修改的语音质量,用于评估语音基础模型对耳语声和气声的敏感性。
📝 摘要(中文)
近年来,语音基础模型(SFMs)取得了显著进展,可以直接处理原始音频中的口语,无需中间文本表示。这使得SFMs能够接触并潜在地响应输入语音信号中丰富的超语言变异。语音质量是超语言变异中一个未被充分探索的维度,包括诸如气声和耳语声等发声类型。这些发声类型会影响听众如何推断语音中的情感状态、立场和社会意义。现有的语音理解基准主要依赖于多项选择问答(MCQA)格式,这种格式容易失败,因此无法可靠地捕捉超语言特征影响模型行为的细微方式。本文通过开放式生成任务和语音情感识别来探测SFMs,评估模型行为在不同发声输入下是否一致。我们引入了一个新的并行数据集,该数据集具有对语音质量的合成修改,旨在评估SFM对耳语声和气声的响应。我们的工作首次检验了SFM对语音感知的这些特定非词汇方面的敏感性。
🔬 方法详解
问题定义:现有语音基础模型在处理语音时,对语音质量(如耳语声、气声)等超语言信息的敏感性不足,而这些信息对于理解情感、立场等至关重要。现有的多项选择问答式评估方法难以有效捕捉模型对这些细微变化的反应。
核心思路:通过开放式生成任务和语音情感识别任务来评估语音基础模型对不同语音质量的响应。这种方式能够更直接地观察模型在不同语音质量输入下的行为,从而判断其是否能够理解并利用这些超语言信息。
技术框架:该研究主要包含以下几个部分:1)构建一个包含不同语音质量(耳语声、气声)的并行数据集,通过合成修改原始语音实现;2)使用该数据集对语音基础模型进行开放式生成任务的测试,观察模型在不同语音质量输入下的生成结果;3)使用该数据集对语音基础模型进行语音情感识别任务的测试,评估模型在不同语音质量输入下的识别准确率。
关键创新:该研究首次关注语音基础模型对语音质量这一超语言特征的敏感性,并提出了一种基于开放式生成和语音情感识别的评估方法。同时,构建了一个包含合成修改语音质量的并行数据集,为相关研究提供了数据支持。
关键设计:数据集构建的关键在于如何合成逼真的耳语声和气声。评估指标的选择需要能够反映模型在不同语音质量输入下的生成质量和情感识别准确率。具体参数设置和网络结构的选择取决于所使用的语音基础模型。
🖼️ 关键图片
📊 实验亮点
该研究构建了一个新的并行数据集,用于评估语音基础模型对不同语音质量的响应。通过开放式生成任务和语音情感识别任务,首次检验了语音基础模型对耳语声和气声等非词汇语音特征的敏感性。实验结果表明,现有语音基础模型在处理不同语音质量的语音时,性能存在差异,表明模型对这些超语言信息的利用不足。
🎯 应用场景
该研究成果可应用于提升语音助手、情感识别系统等应用在复杂语音环境下的性能。例如,在嘈杂环境或用户带有特定情感色彩的语音输入时,能够更准确地理解用户意图。此外,该研究也有助于开发更具鲁棒性和适应性的语音处理系统,使其能够更好地理解和处理各种语音质量的语音。
📄 摘要(原文)
Recent advances in speech foundation models (SFMs) have enabled the direct processing of spoken language from raw audio, bypassing intermediate textual representations. This capability allows SFMs to be exposed to, and potentially respond to, rich paralinguistic variations embedded in the input speech signal. One under-explored dimension of paralinguistic variation is voice quality, encompassing phonation types such as creaky and breathy voice. These phonation types are known to influence how listeners infer affective state, stance and social meaning in speech. Existing benchmarks for speech understanding largely rely on multiple-choice question answering (MCQA) formats, which are prone to failure and therefore unreliable in capturing the nuanced ways paralinguistic features influence model behaviour. In this paper, we probe SFMs through open-ended generation tasks and speech emotion recognition, evaluating whether model behaviours are consistent across different phonation inputs. We introduce a new parallel dataset featuring synthesized modifications to voice quality, designed to evaluate SFM responses to creaky and breathy voice. Our work provides the first examination of SFM sensitivity to these particular non-lexical aspects of speech perception.