DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding
作者: Suwon Shon, Kwangyoun Kim, Yi-Te Hsu, Prashant Sridhar, Shinji Watanabe, Karen Livescu
分类: cs.CL, cs.SD, eess.AS
发布日期: 2024-06-13
💡 一句话要点
提出DiscreteSLU,利用自监督离散语音单元增强LLM的口语理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 口语理解 大型语言模型 离散语音单元 自监督学习 语音适配器
📋 核心要点
- 现有方法将预训练文本LLM与语音输入集成,依赖于语音编码器、适配器和LLM的联合训练,过程复杂。
- 本文提出使用离散语音单元(DSU)作为语音适配器的输入,简化了语音到LLM的转换,降低了训练难度。
- 实验表明,该模型在不同领域的语音输入和口语问答中表现出鲁棒性,且ASR任务并非指令调优的关键。
📝 摘要(中文)
本文提出了一种利用自监督离散语音单元(DSU)的大型语言模型(LLM)来进行口语理解的方法。该方法使用DSU代替连续值的语音编码器输出,并通过语音适配器将其转换为LLM的token嵌入空间。DSU通过自监督语音编码器和k-means聚类生成。所提出的模型在来自已见/未见领域的语音输入以及口语问答中的指令跟随能力方面表现出强大的性能。我们还探索了从自监督语音编码器的不同层提取的各种类型的DSU,以及Mel频率倒谱系数(MFCC)。我们的研究结果表明,对于口语问答任务的指令调优,ASR任务和数据集并非至关重要。
🔬 方法详解
问题定义:现有口语理解系统通常依赖于将语音编码器的连续输出直接输入到大型语言模型(LLM)中。这种方法需要训练一个语音适配器来弥合语音特征空间和LLM的token嵌入空间之间的差距。这种训练过程复杂,且对语音编码器的质量有较高要求。
核心思路:本文的核心思路是使用离散语音单元(DSU)作为语音适配器的输入,而不是连续的语音编码器输出。DSU可以看作是对语音信号的一种离散化表示,它更接近于LLM所处理的文本token,从而简化了语音到LLM的转换过程。
技术框架:该方法主要包含以下几个阶段:1) 使用自监督语音编码器提取语音特征;2) 对提取的语音特征进行k-means聚类,生成DSU;3) 使用语音适配器将DSU映射到LLM的token嵌入空间;4) 使用LLM进行口语理解任务,例如口语问答。整体架构是将语音信号转化为离散单元,再通过适配器输入LLM进行处理。
关键创新:最重要的技术创新点在于使用DSU作为语音和LLM之间的桥梁。与直接使用连续语音特征相比,DSU具有以下优势:1) 降低了语音适配器的训练难度;2) 提高了模型的鲁棒性,使其能够更好地处理来自不同领域的语音输入;3) 使得模型更加模块化,可以方便地替换不同的语音编码器和LLM。
关键设计:DSU的生成过程是关键。论文探索了从自监督语音编码器的不同层提取特征,并使用k-means聚类生成DSU。k-means的聚类中心数量是一个重要的参数,它决定了DSU的粒度。此外,语音适配器的设计也至关重要,它需要将DSU有效地映射到LLM的token嵌入空间。论文还探索了不同的语音适配器结构,例如线性层和Transformer层。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用DSU的模型在口语问答任务中表现出强大的性能,尤其是在处理来自未见领域的语音输入时。研究发现,ASR任务和数据集对于口语问答任务的指令调优并非至关重要,这表明该方法具有良好的泛化能力。此外,不同类型的DSU和MFCC的实验结果也为DSU的选择提供了指导。
🎯 应用场景
该研究成果可应用于智能助手、语音搜索、语音控制等领域。通过将语音输入转化为离散单元,可以更有效地利用大型语言模型的强大能力,提升语音交互的智能化水平。未来,该方法有望扩展到更多语音相关的任务,例如语音翻译、语音摘要等。
📄 摘要(原文)
The integration of pre-trained text-based large language models (LLM) with speech input has enabled instruction-following capabilities for diverse speech tasks. This integration requires the use of a speech encoder, a speech adapter, and an LLM, trained on diverse tasks. We propose the use of discrete speech units (DSU), rather than continuous-valued speech encoder outputs, that are converted to the LLM token embedding space using the speech adapter. We generate DSU using a self-supervised speech encoder followed by k-means clustering. The proposed model shows robust performance on speech inputs from seen/unseen domains and instruction-following capability in spoken question answering. We also explore various types of DSU extracted from different layers of the self-supervised speech encoder, as well as Mel frequency Cepstral Coefficients (MFCC). Our findings suggest that the ASR task and datasets are not crucial in instruction-tuning for spoken question answering tasks.