Do What I Say: A Spoken Prompt Dataset for Instruction-Following
作者: Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues
分类: cs.CL
发布日期: 2026-03-10
💡 一句话要点
提出DOWIS数据集,用于评估语音提示下语音大语言模型的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音大语言模型 语音提示 数据集 多语种 语音评估
📋 核心要点
- 现有SLLM评估主要依赖文本提示,忽略了语音交互的真实应用场景。
- DOWIS数据集包含多语言、多风格的语音和文本提示,用于更真实地评估SLLM。
- 实验表明,文本提示通常优于语音提示,尤其在低资源和跨语言任务中,语音输出任务除外。
📝 摘要(中文)
语音大语言模型(SLLM)发展迅速,支持的任务范围广泛。这些模型通常使用文本提示进行评估,但这可能无法反映用户通过语音交互的真实场景。为了弥补这一差距,我们推出了DoWhatISay(DOWIS),这是一个多语种数据集,包含人工录制的语音和书面提示,旨在与任何现有基准配对,以便在语音指令条件下对SLLM进行实际评估。DOWIS涵盖9个任务和11种语言,每个任务-语言对提供10种提示变体,跨越五种风格。我们使用DOWIS对最先进的SLLM进行了基准测试,分析了提示模态、风格、语言和任务类型之间的相互作用。结果表明,文本提示始终优于语音提示,尤其是在低资源和跨语言设置中。只有对于具有语音输出的任务,语音提示才能缩小差距,突出了在SLLM评估中使用基于语音的提示的必要性。
🔬 方法详解
问题定义:现有语音大语言模型(SLLM)的评估主要依赖于文本提示,这与用户在实际应用中通过语音进行交互的方式存在脱节。这种评估方式可能无法真实反映SLLM在实际语音环境下的性能表现,尤其是在低资源语言和跨语言场景下,语音识别的准确性会显著影响后续任务的完成。
核心思路:论文的核心思路是构建一个更贴近真实用户交互场景的评估数据集,该数据集包含人工录制的语音提示以及对应的文本提示,从而能够更全面、更准确地评估SLLM在语音指令下的性能。通过对比语音提示和文本提示下的模型表现,可以更好地了解SLLM在处理语音输入方面的优势和不足。
技术框架:DOWIS数据集的构建流程主要包括以下几个阶段:1) 任务选择:选择了9个具有代表性的SLLM应用任务。2) 语言选择:选择了11种语言,覆盖了高资源和低资源语言。3) 提示设计:为每个任务-语言对设计了10种不同的提示变体,这些提示变体涵盖了5种不同的风格,例如正式、非正式等。4) 语音录制:由母语人士录制所有提示的语音版本。5) 数据集发布:将语音和文本提示以及对应的任务标签整理成数据集并公开发布。
关键创新:DOWIS数据集的关键创新在于其真实性和多样性。它不仅包含了人工录制的语音提示,更重要的是,它涵盖了多种语言、多种任务和多种提示风格,从而能够更全面地评估SLLM在不同场景下的性能。此外,DOWIS数据集的设计允许其与现有的SLLM基准测试相结合,从而可以方便地评估SLLM在语音指令下的性能。
关键设计:DOWIS数据集的关键设计包括:1) 提示风格的多样性:通过设计不同风格的提示,可以模拟用户在实际应用中使用的不同表达方式。2) 语言的多样性:涵盖了高资源和低资源语言,可以评估SLLM在不同语言环境下的性能。3) 任务的多样性:涵盖了多种不同的SLLM应用任务,可以评估SLLM在不同任务上的泛化能力。4) 提示数量:每个任务-语言对提供10个提示变体,保证了评估结果的可靠性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,文本提示通常优于语音提示,尤其是在低资源和跨语言设置中。对于具有语音输出的任务,语音提示与文本提示的性能差距有所缩小,这表明在SLLM评估中,使用基于语音的提示至关重要。DOWIS数据集为SLLM的语音评估提供了一个可靠的基准。
🎯 应用场景
该研究成果可应用于语音助手、智能客服、语音搜索等领域,提升SLLM在真实语音交互场景下的性能。DOWIS数据集的发布将促进SLLM在语音理解和生成方面的研究,推动语音交互技术的进步,并为低资源语言的语音技术发展提供支持。未来,该数据集可以扩展到更多语言和任务,进一步提升SLLM的实用性。
📄 摘要(原文)
Speech Large Language Models (SLLMs) have rapidly expanded, supporting a wide range of tasks. These models are typically evaluated using text prompts, which may not reflect real-world scenarios where users interact with speech. To address this gap, we introduce DoWhatISay (DOWIS), a multilingual dataset of human-recorded spoken and written prompts designed to pair with any existing benchmark for realistic evaluation of SLLMs under spoken instruction conditions. Spanning 9 tasks and 11 languages, it provides 10 prompt variants per task-language pair, across five styles. Using DOWIS, we benchmark state-of-the-art SLLMs, analyzing the interplay between prompt modality, style, language, and task type. Results show that text prompts consistently outperform spoken prompts, particularly for low-resource and cross-lingual settings. Only for tasks with speech output, spoken prompts do close the gap, highlighting the need for speech-based prompting in SLLM evaluation.