VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning
作者: Yifan Peng, Krishna C. Puvvada, Zhehuai Chen, Piotr Zelasko, He Huang, Kunal Dhawan, Ke Hu, Shinji Watanabe, Jagadeesh Balam, Boris Ginsburg
分类: cs.CL, eess.AS
发布日期: 2024-10-23 (更新: 2025-02-07)
备注: Accepted at NAACL 2025 main conference
💡 一句话要点
VoiceTextBlender:通过单阶段联合语音-文本监督微调增强大语言模型的语音能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音语言模型 大语言模型 监督微调 低秩适应 语音识别 语音问答 多模态学习 单阶段训练
📋 核心要点
- 现有SpeechLM存在多阶段训练复杂、灾难性遗忘等问题,限制了其在多轮对话和混合模态任务中的应用。
- 提出VoiceTextBlender,通过单阶段联合语音-文本SFT,在LoRA上微调LLM,融合多种语音相关数据。
- 实验表明,3B模型超越了7B/13B模型,在语音任务上表现更优,同时保留了文本能力,并展现了处理新任务的能力。
📝 摘要(中文)
本文提出了一种新的单阶段联合语音-文本监督微调(SFT)方法,用于增强大语言模型(LLM)的语音能力,从而构建语音语言模型(SpeechLM)。 之前的SpeechLM主要集中于单轮语音问答,而最近的研究扩展到多轮对话,但通常需要复杂的多阶段SFT和多样的数据。SpeechLM的另一个关键挑战是灾难性遗忘,即针对语音任务优化的模型在纯文本任务上的性能会显著下降。为了解决这些问题,本文在LLM骨干网络的低秩适应(LoRA)上进行联合SFT,结合了纯文本SFT数据和三种类型的语音相关数据:语音识别和翻译、基于语音的问答以及混合模态SFT。实验结果表明,与之前具有7B或13B参数的SpeechLM相比,本文提出的3B模型在各种语音基准测试中表现出卓越的性能,同时保留了原始的纯文本任务能力。此外,该模型还展示了有效处理先前未见过的提示和任务(包括多轮混合模态输入)的新兴能力。
🔬 方法详解
问题定义:现有SpeechLM通常采用复杂的多阶段SFT,训练成本高昂,且容易发生灾难性遗忘,导致模型在语音任务上表现良好,但在纯文本任务上的性能下降。此外,现有模型在处理多轮混合模态输入方面能力有限。
核心思路:本文的核心思路是通过单阶段联合语音-文本SFT,同时优化模型在语音和文本任务上的性能,从而避免灾难性遗忘。通过在LLM的LoRA上进行微调,降低了训练成本,并提高了模型的泛化能力。
技术框架:VoiceTextBlender的整体框架是在预训练的LLM基础上,使用LoRA进行微调。SFT阶段采用联合训练策略,同时输入文本数据和语音相关数据。语音相关数据包括语音识别和翻译数据、语音问答数据以及混合模态数据。模型结构保持LLM不变,主要修改在于LoRA层的添加和训练。
关键创新:最重要的技术创新点是单阶段联合语音-文本SFT方法。与传统的多阶段训练方法相比,该方法能够更有效地利用数据,避免灾难性遗忘,并提高模型的泛化能力。此外,混合模态数据的引入使得模型能够处理更复杂的输入,例如多轮混合模态对话。
关键设计:关键设计包括:1) 使用LoRA进行参数高效微调;2) 设计了包含文本数据、语音识别/翻译数据、语音问答数据和混合模态数据的联合训练数据集;3) 采用标准的交叉熵损失函数进行训练;4) 针对不同类型的数据,设置了不同的采样策略,以平衡不同任务之间的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VoiceTextBlender在多个语音基准测试中超越了参数量更大的SpeechLM模型(7B/13B),同时保持了在纯文本任务上的性能。更重要的是,该模型展现了处理先前未见过的提示和任务(包括多轮混合模态输入)的新兴能力,证明了其良好的泛化性能。
🎯 应用场景
该研究成果可应用于智能助手、语音搜索、语音翻译、多模态对话系统等领域。通过赋予大语言模型更强的语音能力,可以实现更自然、更高效的人机交互,提升用户体验。未来,该技术有望在教育、医疗、娱乐等领域发挥重要作用。
📄 摘要(原文)
Recent studies have augmented large language models (LLMs) with speech capabilities, leading to the development of speech language models (SpeechLMs). Earlier SpeechLMs focused on single-turn speech-based question answering (QA), where user input comprised a speech context and a text question. More recent studies have extended this to multi-turn conversations, though they often require complex, multi-stage supervised fine-tuning (SFT) with diverse data. Another critical challenge with SpeechLMs is catastrophic forgetting, where models optimized for speech tasks suffer significant degradation in text-only performance. To mitigate these issues, we propose a novel single-stage joint speech-text SFT approach on the low-rank adaptation (LoRA) of the LLM backbone. Our joint SFT combines text-only SFT data with three types of speech-related data: speech recognition and translation, speech-based QA, and mixed-modal SFT. Compared to previous SpeechLMs with 7B or 13B parameters, our 3B model demonstrates superior performance across various speech benchmarks while preserving the original capabilities on text-only tasks. Furthermore, our model shows emergent abilities of effectively handling previously unseen prompts and tasks, including multi-turn, mixed-modal inputs.