A Simple Method to Enhance Pre-trained Language Models with Speech Tokens for Classification
作者: Nicolas Calbucura, Jose Guillen, Valentin Barriere
分类: cs.CL, cs.MM
发布日期: 2026-04-07
💡 一句话要点
提出一种简单方法,利用语音token增强预训练语言模型,用于分类任务。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态融合 语音识别 预训练语言模型 特征选择 自监督学习
📋 核心要点
- 现有方法难以有效融合长音频序列与文本信息,限制了语音信息在文本语言模型中的应用。
- 该方法利用Lasso特征选择,从语音token中提取关键信息,并使用自监督学习使语言模型适应语音特征。
- 实验表明,该方法在论证谬误检测、情感计算等任务上优于单模态模型和其他语音融合方法。
📝 摘要(中文)
本文提出了一种简单的方法,用于在微调特定分类任务时,利用语音信息增强文本预训练的大型语言模型。将音频中的多个嵌入与文本融合的经典问题是,音频序列的长度通常远大于文本序列。我们的方法受益于现有的语音tokenizer,该tokenizer为语音识别任务训练,可以从大型词汇表中输出长序列的token,这使得以低成本将其集成到大型语言模型中变得困难。通过对多模态词袋表示应用基于Lasso的特征选择,我们仅保留对任务最重要的音频token,并通过自监督语言建模目标使语言模型适应这些token,然后在下游任务上对其进行微调。实验表明,与单模态模型、更大的SpeechLM或通过学习表示集成音频相比,该方法有助于提高性能。我们在论证谬误检测和分类任务(之前认为音频会适得其反)以及广泛使用的数据集上的情感计算任务中证明了其有效性。我们还对该方法进行了深入分析,表明即使是随机音频token选择也有助于增强单模态模型。我们的代码已在线提供。
🔬 方法详解
问题定义:现有方法在融合音频和文本信息时,面临音频序列过长的问题。直接将音频token嵌入到大型语言模型中,计算成本高昂,且效果不佳。此外,在某些任务中,音频信息甚至被认为会降低性能。
核心思路:该论文的核心思路是通过特征选择,从语音token序列中提取与任务相关的关键信息,从而降低音频信息的维度,并提高融合效率。通过自监督学习,使语言模型更好地理解和利用这些语音特征。
技术框架:该方法主要包含以下几个阶段:1) 使用预训练的语音tokenizer将音频转换为token序列。2) 构建多模态词袋表示,将文本和音频token进行组合。3) 使用Lasso回归进行特征选择,筛选出对任务最重要的音频token。4) 使用自监督语言建模目标,使语言模型适应选定的音频token。5) 在下游分类任务上对模型进行微调。
关键创新:该方法最重要的创新点在于利用Lasso回归进行音频token的特征选择。这种方法能够有效地降低音频信息的维度,并保留与任务相关的关键信息。此外,使用自监督学习使语言模型适应语音特征,也提高了模型的性能。
关键设计:Lasso回归的正则化参数需要根据具体任务进行调整,以平衡特征选择的稀疏性和模型的性能。自监督学习的目标是预测被mask的token,可以使用标准的语言建模损失函数。在微调阶段,可以使用交叉熵损失函数进行分类。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在论证谬误检测和情感计算任务上取得了显著的性能提升。即使是随机选择音频token,也能增强单模态模型,证明了该方法的有效性。与直接使用更大的SpeechLM或通过学习表示集成音频相比,该方法具有更高的效率和更好的性能。
🎯 应用场景
该研究成果可应用于多种多模态分类任务,例如情感分析、语音内容理解、以及其他需要融合语音和文本信息的场景。该方法能够有效利用语音信息增强文本语言模型,提高模型在这些任务上的性能。未来,该方法可以进一步扩展到其他模态的数据融合,例如视频和图像。
📄 摘要(原文)
This paper presents a simple method that allows to easily enhance textual pre-trained large language models with speech information, when fine-tuned for a specific classification task. A classical issue with the fusion of many embeddings from audio with text is the large length of the audio sequence compared to the text one. Our method benefits from an existing speech tokenizer trained for Audio Speech Recognition that output long sequences of tokens from a large vocabulary, making it difficult to integrate it at low cost in a large language model. By applying a simple lasso-based feature selection on multimodal Bag-of-Words representation, we retain only the most important audio tokens for the task, and adapt the language model to them with a self-supervised language modeling objective, before fine-tuning it on the downstream task. We show this helps to improve the performances compared to an unimodal model, to a bigger SpeechLM or to integrating audio via a learned representation. We demonstrate its effectiveness on Argumentative Fallacy Detection and Classification tasks where audio was previously believed counterproductive, and affective computing tasks on a widely-used dataset. We also provide an in-depth analysis of the method, showing that even a random audio token selection helps enhancing the unimodal model. Our code is available online.