Spoken Language Understanding on Unseen Tasks With In-Context Learning

作者: Neeraj Agrawal, Sriram Ganapathy

分类: cs.CL, cs.LG, eess.AS

发布日期: 2025-05-12

期刊: Proc. Interspeech 2025, 4103-4107

DOI: 10.21437/Interspeech.2025-1467

💡 一句话要点

提出基于随机化标签的任务无关微调方法，提升语音-文本LLM在未见SLU任务上的性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 口语理解 语音-文本LLM 任务无关学习 随机化标签 微调 零样本学习 少样本学习

📋 核心要点

传统SLU模型依赖任务特定数据，难以应对数据稀缺或新任务场景。
论文提出一种基于随机化类别标签的任务无关微调方法，提升LLM泛化能力。
实验表明，该方法显著提升了语音-文本LLM在未见SLU任务上的性能。

📝 摘要（中文）

口语理解（SLU）任务涉及多种技能，用于探测模型的信息提取、分类和/或生成能力。在这种场景下，可能并不总是能获得特定于任务的训练数据。传统的特定任务SLU模型无法满足这些需求，而语音-文本大型语言模型（LLM）凭借其涌现能力提供了一种有希望的替代方案。然而，我们的评估表明，现成的开源语音-文本LLM在SLU任务上的零/少样本性能并不理想。本文提出了一种新颖的方法，即使用随机化类别标签进行鲁棒的任务无关微调。通过这种微调，我们证明了语音-文本LLM在未见任务上的性能相比标准方法有了显著提高。至关重要的是，该方法避免了对任务特定数据标注的需求，从而能够在语音-文本LLM中启用新任务。

🔬 方法详解

问题定义：论文旨在解决语音-文本大型语言模型（LLM）在未见过的口语理解（SLU）任务上的性能不足问题。现有的特定任务SLU模型需要大量的标注数据，而通用LLM在零样本或少样本情况下，无法很好地泛化到新的SLU任务上。这限制了它们在实际应用中的灵活性和适应性。

核心思路：论文的核心思路是通过一种任务无关的微调策略，提升LLM的泛化能力。具体来说，通过使用随机化的类别标签进行微调，迫使模型学习更鲁棒的语音和文本之间的关系，而不是过度拟合特定的任务标签。这种方式使得模型能够更好地适应新的、未见过的SLU任务。

技术框架：该方法主要包含以下步骤：1) 选择一个预训练的语音-文本LLM作为基础模型。2) 准备一个包含语音和文本数据的训练集，但将文本标签替换为随机生成的标签。3) 使用这个带有随机标签的数据集对LLM进行微调。4) 在未见过的SLU任务上评估微调后的模型性能。整个流程的关键在于随机标签的生成和微调过程。

关键创新：该方法最重要的创新点在于使用随机化的类别标签进行任务无关的微调。与传统的微调方法不同，该方法不依赖于任何任务特定的标注数据，而是通过引入噪声来迫使模型学习更通用的语音-文本表示。这种方法可以有效地提升模型在未见任务上的泛化能力。

关键设计：关键的设计包括：1) 随机标签的生成方式：需要确保随机标签的分布与真实标签的分布相似，以避免引入过多的噪声。2) 微调的学习率和训练轮数：需要仔细调整这些参数，以避免模型过度拟合随机标签或欠拟合语音-文本关系。3) 损失函数：可以使用标准的交叉熵损失函数，但需要根据随机标签进行调整。

🖼️ 关键图片

📊 实验亮点

论文提出的方法显著提升了语音-文本LLM在未见SLU任务上的性能。具体来说，通过使用随机化标签进行微调，模型在多个SLU基准测试上的准确率得到了显著提高，超过了直接使用预训练模型或使用少量真实标签进行微调的方法。具体的性能提升数据在论文中进行了详细的展示和分析。

🎯 应用场景

该研究成果可应用于各种语音助手、智能客服和语音搜索等场景，尤其是在缺乏特定任务标注数据的情况下。通过提升语音-文本LLM的泛化能力，可以快速部署新的SLU任务，降低开发成本，并提高用户体验。未来，该方法有望扩展到更多模态和任务，推动通用人工智能的发展。

📄 摘要（原文）

Spoken language understanding (SLU) tasks involve diverse skills that probe the information extraction, classification and/or generation capabilities of models. In this setting, task-specific training data may not always be available. While traditional task-specific SLU models are unable to cater to such requirements, the speech-text large language models (LLMs) offer a promising alternative with emergent abilities. However, out of-the-box, our evaluations indicate that the zero/few-shot performance of prominent open-source speech-text LLMs on SLU tasks are not up to the mark. In this paper, we introduce a novel approach to robust task-agnostic fine-tuning using randomized class labels. With this proposed fine-tuning, we illustrate that the performance of the speech-text LLMs on an unseen task is significantly improved over standard approaches. Critically, the proposed approach avoids the requirement of task-specific data annotations for enabling new tasks in speech-text LLMs.

Spoken Language Understanding on Unseen Tasks With In-Context Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理