Do What I Say: A Spoken Prompt Dataset for Instruction-Following

作者: Maike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues

分类: cs.CL

发布日期: 2026-03-10

💡 一句话要点

提出DOWIS数据集，用于评估语音提示下语音大语言模型的性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音大语言模型 语音提示 数据集 多语种 语音评估

📋 核心要点

现有SLLM评估主要依赖文本提示，忽略了语音交互的真实应用场景。
DOWIS数据集包含多语言、多风格的语音和文本提示，用于更真实地评估SLLM。
实验表明，文本提示通常优于语音提示，尤其在低资源和跨语言任务中，语音输出任务除外。

📝 摘要（中文）

语音大语言模型（SLLM）发展迅速，支持的任务范围广泛。这些模型通常使用文本提示进行评估，但这可能无法反映用户通过语音交互的真实场景。为了弥补这一差距，我们推出了DoWhatISay（DOWIS），这是一个多语种数据集，包含人工录制的语音和书面提示，旨在与任何现有基准配对，以便在语音指令条件下对SLLM进行实际评估。DOWIS涵盖9个任务和11种语言，每个任务-语言对提供10种提示变体，跨越五种风格。我们使用DOWIS对最先进的SLLM进行了基准测试，分析了提示模态、风格、语言和任务类型之间的相互作用。结果表明，文本提示始终优于语音提示，尤其是在低资源和跨语言设置中。只有对于具有语音输出的任务，语音提示才能缩小差距，突出了在SLLM评估中使用基于语音的提示的必要性。

🔬 方法详解

问题定义：现有语音大语言模型（SLLM）的评估主要依赖于文本提示，这与用户在实际应用中通过语音进行交互的方式存在脱节。这种评估方式可能无法真实反映SLLM在实际语音环境下的性能表现，尤其是在低资源语言和跨语言场景下，语音识别的准确性会显著影响后续任务的完成。

核心思路：论文的核心思路是构建一个更贴近真实用户交互场景的评估数据集，该数据集包含人工录制的语音提示以及对应的文本提示，从而能够更全面、更准确地评估SLLM在语音指令下的性能。通过对比语音提示和文本提示下的模型表现，可以更好地了解SLLM在处理语音输入方面的优势和不足。

技术框架：DOWIS数据集的构建流程主要包括以下几个阶段：1) 任务选择：选择了9个具有代表性的SLLM应用任务。2) 语言选择：选择了11种语言，覆盖了高资源和低资源语言。3) 提示设计：为每个任务-语言对设计了10种不同的提示变体，这些提示变体涵盖了5种不同的风格，例如正式、非正式等。4) 语音录制：由母语人士录制所有提示的语音版本。5) 数据集发布：将语音和文本提示以及对应的任务标签整理成数据集并公开发布。

关键创新：DOWIS数据集的关键创新在于其真实性和多样性。它不仅包含了人工录制的语音提示，更重要的是，它涵盖了多种语言、多种任务和多种提示风格，从而能够更全面地评估SLLM在不同场景下的性能。此外，DOWIS数据集的设计允许其与现有的SLLM基准测试相结合，从而可以方便地评估SLLM在语音指令下的性能。

关键设计：DOWIS数据集的关键设计包括：1) 提示风格的多样性：通过设计不同风格的提示，可以模拟用户在实际应用中使用的不同表达方式。2) 语言的多样性：涵盖了高资源和低资源语言，可以评估SLLM在不同语言环境下的性能。3) 任务的多样性：涵盖了多种不同的SLLM应用任务，可以评估SLLM在不同任务上的泛化能力。4) 提示数量：每个任务-语言对提供10个提示变体，保证了评估结果的可靠性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，文本提示通常优于语音提示，尤其是在低资源和跨语言设置中。对于具有语音输出的任务，语音提示与文本提示的性能差距有所缩小，这表明在SLLM评估中，使用基于语音的提示至关重要。DOWIS数据集为SLLM的语音评估提供了一个可靠的基准。

🎯 应用场景

该研究成果可应用于语音助手、智能客服、语音搜索等领域，提升SLLM在真实语音交互场景下的性能。DOWIS数据集的发布将促进SLLM在语音理解和生成方面的研究，推动语音交互技术的进步，并为低资源语言的语音技术发展提供支持。未来，该数据集可以扩展到更多语言和任务，进一步提升SLLM的实用性。

📄 摘要（原文）

Speech Large Language Models (SLLMs) have rapidly expanded, supporting a wide range of tasks. These models are typically evaluated using text prompts, which may not reflect real-world scenarios where users interact with speech. To address this gap, we introduce DoWhatISay (DOWIS), a multilingual dataset of human-recorded spoken and written prompts designed to pair with any existing benchmark for realistic evaluation of SLLMs under spoken instruction conditions. Spanning 9 tasks and 11 languages, it provides 10 prompt variants per task-language pair, across five styles. Using DOWIS, we benchmark state-of-the-art SLLMs, analyzing the interplay between prompt modality, style, language, and task type. Results show that text prompts consistently outperform spoken prompts, particularly for low-resource and cross-lingual settings. Only for tasks with speech output, spoken prompts do close the gap, highlighting the need for speech-based prompting in SLLM evaluation.

Do What I Say: A Spoken Prompt Dataset for Instruction-Following

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理