Just ASR + LLM? A Study on Speech Large Language Models' Ability to Identify and Understand Speaker in Spoken Dialogue

📄 arXiv: 2409.04927v3 📥 PDF

作者: Junkai Wu, Xulin Fan, Bo-Ru Lu, Xilin Jiang, Nima Mesgarani, Mark Hasegawa-Johnson, Mari Ostendorf

分类: cs.CL, eess.AS

发布日期: 2024-09-07 (更新: 2024-10-02)

备注: Accepted to IEEE SLT 2024


💡 一句话要点

揭示语音大语言模型在口语对话中识别和理解说话者能力的局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音大语言模型 口语对话问答 说话人识别 身份关键问题 模型评估

📋 核心要点

  1. 现有语音大语言模型在口语对话问答中,对说话人身份的理解能力不足,过度依赖文本信息。
  2. 论文提出通过设计身份关键问题数据集,更准确地评估语音大语言模型在口语对话问答中的说话人感知能力。
  3. 实验结果表明,现有模型在身份关键问题上的表现远低于基于上下文的问题,验证了模型的局限性。

📝 摘要(中文)

近年来,语音大语言模型(SpeechLLMs)发展迅速,在听觉和推理能力上赶上了人类。SpeechLLMs在口语对话问答(SQA)基准测试(如高考)中表现出令人印象深刻的性能,这似乎需要理解对话中说话者的语音内容和声音特征。然而,在仔细检查高考的问题后,我们发现许多问题的正确答案可以仅从对话文本推断出来,即不需要说话人分割和识别。我们对最先进的模型Qwen-Audio和WavLLM在高考和我们提出的“你喜欢什么?”数据集上的评估表明,这些基于上下文的问题的准确性明显高于身份关键问题,而身份关键问题只有通过正确的说话人识别才能可靠地回答。结果和分析表明,在解决SQA时,当前的SpeechLLMs从音频中表现出有限的说话人感知能力,并且其行为类似于从没有声音的对话转录进行推理的LLM。我们建议,专注于身份关键问题的任务可以为SQA中SpeechLLMs提供更准确的评估框架。

🔬 方法详解

问题定义:现有语音大语言模型在口语对话问答任务中,虽然在某些基准测试上表现出色,但其对说话人身份的理解能力可能被高估。现有模型可能仅仅依赖于对话的文本内容进行推理,而忽略了说话人的语音特征,从而无法正确回答需要识别说话人身份的问题。

核心思路:论文的核心思路是通过设计一种新的数据集,该数据集中的问题需要模型准确识别说话人的身份才能正确回答。通过评估模型在该数据集上的表现,可以更准确地衡量模型对说话人身份的感知能力。

技术框架:论文主要通过实验分析现有语音大语言模型在不同类型问题上的表现来评估其说话人感知能力。具体来说,论文使用了高考数据集和作者提出的“你喜欢什么?”数据集,并将问题分为基于上下文的问题和身份关键问题。然后,论文使用Qwen-Audio和WavLLM等模型在这些数据集上进行实验,并比较它们在不同类型问题上的准确率。

关键创新:论文的关键创新在于提出了身份关键问题的概念,并设计了相应的数据集。这种类型的问题能够更有效地评估语音大语言模型对说话人身份的感知能力,从而避免了现有评估方法可能存在的偏差。

关键设计:论文设计了“你喜欢什么?”数据集,该数据集包含需要识别说话人身份才能回答的问题。此外,论文还对高考数据集中的问题进行了分类,区分了基于上下文的问题和身份关键问题。在实验中,论文使用了Qwen-Audio和WavLLM等先进的语音大语言模型,并比较了它们在不同类型问题上的准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Qwen-Audio和WavLLM在身份关键问题上的准确率明显低于基于上下文的问题,这表明现有模型在口语对话问答中对说话人身份的感知能力有限。例如,在“你喜欢什么?”数据集上,模型的身份关键问题准确率显著低于高考数据集,进一步验证了模型的局限性。

🎯 应用场景

该研究成果可应用于改进语音助手、智能客服等应用,使其能够更准确地理解对话内容,区分不同说话人,并提供更个性化的服务。此外,该研究也为语音大语言模型的评估提供了新的思路,有助于推动该领域的发展。

📄 摘要(原文)

In recent years, we have observed a rapid advancement in speech language models (SpeechLLMs), catching up with humans' listening and reasoning abilities. SpeechLLMs have demonstrated impressive spoken dialog question-answering (SQA) performance in benchmarks like Gaokao, the English listening test of the college entrance exam in China, which seemingly requires understanding both the spoken content and voice characteristics of speakers in a conversation. However, after carefully examining Gaokao's questions, we find the correct answers to many questions can be inferred from the conversation transcript alone, i.e.\ without speaker segmentation and identification. Our evaluation of state-of-the-art models Qwen-Audio and WavLLM on both Gaokao and our proposed "What Do You Like?" dataset shows a significantly higher accuracy in these context-based questions than in identity-critical questions, which can only be answered reliably with correct speaker identification. The results and analysis suggest that when solving SQA, the current SpeechLLMs exhibit limited speaker awareness from the audio and behave similarly to an LLM reasoning from the conversation transcription without sound. We propose that tasks focused on identity-critical questions could offer a more accurate evaluation framework of SpeechLLMs in SQA.