VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning

作者: Yifan Peng, Krishna C. Puvvada, Zhehuai Chen, Piotr Zelasko, He Huang, Kunal Dhawan, Ke Hu, Shinji Watanabe, Jagadeesh Balam, Boris Ginsburg

分类: cs.CL, eess.AS

发布日期: 2024-10-23 (更新: 2025-02-07)

备注: Accepted at NAACL 2025 main conference

💡 一句话要点

VoiceTextBlender：通过单阶段联合语音-文本监督微调增强大语言模型的语音能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音语言模型 大语言模型 监督微调 低秩适应 语音识别 语音问答 多模态学习 单阶段训练

📋 核心要点

现有SpeechLM存在多阶段训练复杂、灾难性遗忘等问题，限制了其在多轮对话和混合模态任务中的应用。
提出VoiceTextBlender，通过单阶段联合语音-文本SFT，在LoRA上微调LLM，融合多种语音相关数据。
实验表明，3B模型超越了7B/13B模型，在语音任务上表现更优，同时保留了文本能力，并展现了处理新任务的能力。

📝 摘要（中文）

本文提出了一种新的单阶段联合语音-文本监督微调(SFT)方法，用于增强大语言模型(LLM)的语音能力，从而构建语音语言模型(SpeechLM)。之前的SpeechLM主要集中于单轮语音问答，而最近的研究扩展到多轮对话，但通常需要复杂的多阶段SFT和多样的数据。SpeechLM的另一个关键挑战是灾难性遗忘，即针对语音任务优化的模型在纯文本任务上的性能会显著下降。为了解决这些问题，本文在LLM骨干网络的低秩适应(LoRA)上进行联合SFT，结合了纯文本SFT数据和三种类型的语音相关数据：语音识别和翻译、基于语音的问答以及混合模态SFT。实验结果表明，与之前具有7B或13B参数的SpeechLM相比，本文提出的3B模型在各种语音基准测试中表现出卓越的性能，同时保留了原始的纯文本任务能力。此外，该模型还展示了有效处理先前未见过的提示和任务（包括多轮混合模态输入）的新兴能力。

🔬 方法详解

问题定义：现有SpeechLM通常采用复杂的多阶段SFT，训练成本高昂，且容易发生灾难性遗忘，导致模型在语音任务上表现良好，但在纯文本任务上的性能下降。此外，现有模型在处理多轮混合模态输入方面能力有限。

核心思路：本文的核心思路是通过单阶段联合语音-文本SFT，同时优化模型在语音和文本任务上的性能，从而避免灾难性遗忘。通过在LLM的LoRA上进行微调，降低了训练成本，并提高了模型的泛化能力。

技术框架：VoiceTextBlender的整体框架是在预训练的LLM基础上，使用LoRA进行微调。SFT阶段采用联合训练策略，同时输入文本数据和语音相关数据。语音相关数据包括语音识别和翻译数据、语音问答数据以及混合模态数据。模型结构保持LLM不变，主要修改在于LoRA层的添加和训练。

关键创新：最重要的技术创新点是单阶段联合语音-文本SFT方法。与传统的多阶段训练方法相比，该方法能够更有效地利用数据，避免灾难性遗忘，并提高模型的泛化能力。此外，混合模态数据的引入使得模型能够处理更复杂的输入，例如多轮混合模态对话。

关键设计：关键设计包括：1) 使用LoRA进行参数高效微调；2) 设计了包含文本数据、语音识别/翻译数据、语音问答数据和混合模态数据的联合训练数据集；3) 采用标准的交叉熵损失函数进行训练；4) 针对不同类型的数据，设置了不同的采样策略，以平衡不同任务之间的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VoiceTextBlender在多个语音基准测试中超越了参数量更大的SpeechLM模型（7B/13B），同时保持了在纯文本任务上的性能。更重要的是，该模型展现了处理先前未见过的提示和任务（包括多轮混合模态输入）的新兴能力，证明了其良好的泛化性能。

🎯 应用场景

该研究成果可应用于智能助手、语音搜索、语音翻译、多模态对话系统等领域。通过赋予大语言模型更强的语音能力，可以实现更自然、更高效的人机交互，提升用户体验。未来，该技术有望在教育、医疗、娱乐等领域发挥重要作用。

📄 摘要（原文）

Recent studies have augmented large language models (LLMs) with speech capabilities, leading to the development of speech language models (SpeechLMs). Earlier SpeechLMs focused on single-turn speech-based question answering (QA), where user input comprised a speech context and a text question. More recent studies have extended this to multi-turn conversations, though they often require complex, multi-stage supervised fine-tuning (SFT) with diverse data. Another critical challenge with SpeechLMs is catastrophic forgetting, where models optimized for speech tasks suffer significant degradation in text-only performance. To mitigate these issues, we propose a novel single-stage joint speech-text SFT approach on the low-rank adaptation (LoRA) of the LLM backbone. Our joint SFT combines text-only SFT data with three types of speech-related data: speech recognition and translation, speech-based QA, and mixed-modal SFT. Compared to previous SpeechLMs with 7B or 13B parameters, our 3B model demonstrates superior performance across various speech benchmarks while preserving the original capabilities on text-only tasks. Furthermore, our model shows emergent abilities of effectively handling previously unseen prompts and tasks, including multi-turn, mixed-modal inputs.

VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理