A Simple Method to Enhance Pre-trained Language Models with Speech Tokens for Classification

📄 arXiv: 2512.07571v1 📥 PDF

作者: Nicolas Calbucura, Valentin Barriere

分类: cs.CL, cs.MM

发布日期: 2025-12-08

🔗 代码/项目: GITHUB


💡 一句话要点

提出一种简单方法,利用语音token增强预训练语言模型,用于分类任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音增强 预训练语言模型 多模态融合 特征选择 自监督学习

📋 核心要点

  1. 现有方法难以有效融合长音频序列和文本信息,阻碍了语音信息在文本语言模型中的应用。
  2. 该方法通过Lasso特征选择提取关键音频token,并利用自监督学习使语言模型适应这些token。
  3. 实验表明,该方法在论证谬误检测和分类任务中优于单模态模型和其他语音集成方法,达到SOTA。

📝 摘要(中文)

本文提出了一种简单的方法,用于在微调特定分类任务时,利用语音信息轻松增强文本预训练的大型语言模型。将音频的多个嵌入与文本融合的一个经典问题是,音频序列的长度与文本序列相比过长。我们的方法受益于现有的为语音识别训练的语音分词器,该分词器从大型词汇表中输出长序列的token,这使得以低成本将其集成到大型语言模型中变得困难。通过对多模态词袋表示应用基于Lasso的特征选择,我们仅保留对任务最重要的音频token,并通过自监督语言建模目标使语言模型适应它们,然后在下游任务上对其进行微调。我们表明,与单模态模型、更大的SpeechLM或通过学习的表示集成音频相比,这有助于提高性能。我们展示了该方法在两个最近的论证谬误检测和分类任务中的有效性,在这些任务中,音频的使用被认为是适得其反的,达到了最先进的结果。我们还对该方法进行了深入分析,表明即使是随机音频token选择也有助于增强单模态模型。我们的代码已在网上提供。

🔬 方法详解

问题定义:论文旨在解决如何有效地将语音信息融入到预训练语言模型中,以提升文本分类任务的性能。现有方法的主要痛点在于音频序列通常比文本序列长得多,直接融合会导致计算成本高昂,且可能引入噪声。此外,现有的语音分词器输出的token序列词汇量大,难以直接集成到大型语言模型中。

核心思路:论文的核心思路是首先利用现有的语音分词器将音频转换为token序列,然后通过Lasso回归进行特征选择,筛选出与特定分类任务相关的关键音频token。接着,使用自监督语言建模目标,使预训练语言模型适应这些音频token,最后在下游分类任务上进行微调。这样既降低了计算成本,又保证了语音信息的有效利用。

技术框架:整体框架包括以下几个主要阶段:1) 音频token化:使用预训练的语音分词器将音频转换为token序列。2) 特征选择:使用Lasso回归在多模态词袋表示上进行特征选择,筛选出关键音频token。3) 模型适应:使用自监督语言建模目标,使预训练语言模型适应筛选后的音频token。4) 微调:在下游分类任务上对模型进行微调。

关键创新:该方法最重要的创新点在于利用Lasso回归进行音频token的特征选择,从而有效地降低了音频信息的维度,并筛选出与特定任务相关的关键信息。与直接融合所有音频信息或使用复杂的注意力机制相比,该方法更加简单高效。此外,使用自监督学习使语言模型适应音频token,避免了从头开始训练模型的需要。

关键设计:Lasso回归的正则化参数需要根据具体任务进行调整,以控制特征选择的强度。自监督语言建模目标可以使用标准的Masked Language Model (MLM) 损失函数。在微调阶段,可以使用交叉熵损失函数。论文中使用的具体网络结构和参数设置未明确给出,需要参考代码实现。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该方法在论证谬误检测和分类任务中取得了state-of-the-art的结果,证明了其有效性。实验结果表明,即使是随机选择音频token,也能提升单模态模型的性能,这表明音频信息本身具有一定的价值。与更大的SpeechLM模型和通过学习表示集成音频的方法相比,该方法在性能和效率上都具有优势。

🎯 应用场景

该研究成果可应用于各种需要融合语音和文本信息的分类任务,例如情感分析、语音助手、智能客服等。通过有效利用语音信息,可以提升模型的准确性和鲁棒性,从而改善用户体验。未来,该方法可以扩展到其他多模态任务,例如视频理解和机器人交互。

📄 摘要(原文)

This paper presents a simple method that allows to easily enhance textual pre-trained large language models with speech information, when fine-tuned for a specific classification task. A classical issue with the fusion of many embeddings from audio with text is the large length of the audio sequence compared to the text one. Our method benefits from an existing speech tokenizer trained for Audio Speech Recognition that output long sequences of tokens from a large vocabulary, making it difficult to integrate it at low cost in a large language model. By applying a simple lasso-based feature selection on multimodal Bag-of-Words representation, we retain only the most important audio tokens for the task, and adapt the language model to them with a self-supervised language modeling objective, before fine-tuning it on the downstream task. We show this helps to improve the performances compared to an unimodal model, to a bigger SpeechLM or to integrating audio via a learned representation. We show the effectiveness of our method on two recent Argumentative Fallacy Detection and Classification tasks where the use of audio was believed counterproductive, reaching state-of-the-art results. We also provide an in-depth analysis of the method, showing that even a random audio token selection helps enhancing the unimodal model. Our code is available online.