Transferable speech-to-text large language model alignment module
作者: Boyong Wu, Chao Yan, Haoran Pu
分类: cs.CL, cs.SD, eess.AS
发布日期: 2024-06-19
备注: Accepted by InterSpeech 2024; 5 pages, 2 figures
💡 一句话要点
提出可迁移的语音到文本大语言模型对齐模块,简化多模态任务架构。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音文本对齐 多模态学习 大型语言模型 语音识别 口语翻译
📋 核心要点
- 现有语音-文本双模态方法架构复杂,难以有效对齐不同模态的信息。
- 提出一种单层对齐模块,利用Whisper编码器和预训练的Yi-6B模型实现模态对齐。
- 实验表明,该模块仅需少量数据即可实现有效对齐,且可迁移至其他LLM。
📝 摘要(中文)
本文利用大型语言模型(LLMs)和语音基础模型的能力,使得最先进的语音-文本双模态工作能够以更简单的架构完成诸如口语翻译(ST)和问答(SQA)等具有挑战性的任务。本文利用了Whisper编码器和预训练的Yi-6B模型。实验结果表明,通过单层模块和数百小时的语音-文本多任务语料库,可以实现模态对齐。此外,在推理过程中,我们将Yi-6B替换为人类偏好对齐版本的Yi-6B-Chat,并发现对齐能力同样适用。此外,奇异值分解(SVD)揭示的对齐子空间也表明线性对齐子空间是稀疏的,这为连接诸如声纹或视频等其他特征以扩展模态留下了可能性。
🔬 方法详解
问题定义:现有语音-文本双模态方法在处理口语翻译(ST)和问答(SQA)等任务时,通常需要复杂的架构来对齐语音和文本两种模态的信息。这些复杂架构不仅增加了计算成本,也使得模型难以训练和泛化。现有方法的痛点在于模态对齐的效率和可迁移性不足。
核心思路:本文的核心思路是利用一个简单的单层模块来实现语音和文本模态的对齐。该模块通过学习语音特征和文本特征之间的映射关系,将语音特征转换到文本特征空间,从而实现模态对齐。这种方法的核心在于利用预训练的语音基础模型(如Whisper)和大型语言模型(如Yi-6B)的强大表征能力,从而简化了模态对齐的过程。
技术框架:整体架构包括一个Whisper编码器用于提取语音特征,一个单层对齐模块用于将语音特征映射到文本特征空间,以及一个预训练的Yi-6B模型用于生成文本。具体流程如下:首先,Whisper编码器将语音输入转换为语音特征。然后,单层对齐模块将语音特征转换为文本特征。最后,Yi-6B模型利用转换后的文本特征生成目标文本。
关键创新:最重要的技术创新点在于使用单层模块实现模态对齐,并证明了这种方法在少量数据下也能有效工作。此外,该方法还具有良好的可迁移性,可以应用于不同的LLM。通过奇异值分解(SVD)分析,发现对齐子空间是稀疏的,这为进一步扩展模态提供了可能性。
关键设计:单层对齐模块的具体结构未知,但可以推测其可能是一个线性层或一个简单的MLP。损失函数可能采用交叉熵损失或对比损失,以鼓励语音特征和文本特征之间的对齐。论文中提到使用了数百小时的语音-文本多任务语料库进行训练,但未提供具体的参数设置。
🖼️ 关键图片
📊 实验亮点
实验结果表明,仅使用单层模块和数百小时的语音-文本多任务语料库,即可实现有效的模态对齐。更重要的是,该对齐模块具有良好的可迁移性,可以应用于不同的大型语言模型,例如将Yi-6B替换为Yi-6B-Chat后,对齐能力依然有效。
🎯 应用场景
该研究成果可应用于口语翻译、语音问答、语音摘要等领域。通过简化多模态任务的架构,降低了模型训练和部署的成本,使得相关技术更容易落地。未来,该方法还可以扩展到其他模态,如视频和图像,从而实现更强大的多模态理解能力。
📄 摘要(原文)
By leveraging the power of Large Language Models(LLMs) and speech foundation models, state of the art speech-text bimodal works can achieve challenging tasks like spoken translation(ST) and question answering(SQA) altogether with much simpler architectures. In this paper, we utilize the capability of Whisper encoder and pre-trained Yi-6B. Empirical results reveal that modal alignment can be achieved with one layer module and hundred hours of speech-text multitask corpus. We further swap the Yi-6B with human preferences aligned version of Yi-6B-Chat during inference, and discover that the alignment capability is applicable as well. In addition, the alignment subspace revealed by singular value decomposition(SVD) also implies linear alignment subspace is sparse, which leaves the possibility to concatenate other features like voice-print or video to expand modality.