Self-Powered LLM Modality Expansion for Large Speech-Text Models

📄 arXiv: 2410.03798v2 📥 PDF

作者: Tengfei Yu, Xuebo Liu, Zhiyi Hou, Liang Ding, Dacheng Tao, Min Zhang

分类: cs.CL, cs.SD, eess.AS

发布日期: 2024-10-04 (更新: 2024-10-13)

备注: Accepted to EMNLP 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出自驱动LLM模态扩展方法,解决语音-文本大模型中的语音锚定偏差问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音-文本模型 指令微调 语音锚定偏差 自驱动学习 多模态融合

📋 核心要点

  1. 现有语音-文本大模型训练方法资源需求大,且易过拟合,难以有效利用语音数据。
  2. 提出自驱动LSM,利用模型自身生成的增强语音识别数据进行指令微调,缓解语音锚定偏差。
  3. 实验表明,该方法能有效融合语音和文本模态,提升语音相关任务的性能。

📝 摘要(中文)

大型语言模型(LLMs)在各种任务中表现出卓越的性能,表明它们有潜力通过整合语音能力扩展到大型语音-文本模型(LSMs)。尽管统一的语音-文本预训练和多模态数据指令微调提供了相当大的好处,但这些方法通常需要大量的资源,并且容易过度拟合特定任务。本研究旨在通过解决原始指令微调的局限性,改进语音数据集在LSM训练中的使用。我们探索了LSM中的指令遵循动态,发现了一个关键问题,即语音锚定偏差——LSM倾向于过度依赖语音输入,错误地将整个语音模态解释为指令,从而忽略了文本指令。为了消除这种偏差,我们引入了一种自驱动LSM,它利用模型自身生成的增强自动语音识别数据来进行更有效的指令微调。我们在一系列基于语音的任务上的实验表明,自驱动LSM减轻了语音锚定偏差,并改善了LSM中语音和文本模态的融合。

🔬 方法详解

问题定义:论文旨在解决大型语音-文本模型(LSMs)在指令微调过程中出现的“语音锚定偏差”问题。现有方法在训练LSM时,容易过度依赖语音输入,将其误解为指令,从而忽略文本指令,导致模型性能下降。这种偏差使得模型无法有效融合语音和文本信息,限制了其在多模态任务中的应用。

核心思路:论文的核心思路是利用模型自身的能力生成增强的自动语音识别(ASR)数据,并使用这些数据进行指令微调,从而纠正模型对语音的过度依赖。通过让模型接触更多样化的语音数据,并明确区分语音输入中的指令和内容,可以有效缓解语音锚定偏差。

技术框架:整体框架包括以下几个主要步骤:1) 使用原始语音数据训练一个初始的LSM;2) 使用该LSM生成增强的ASR数据,包括语音的多种转录版本;3) 将原始语音数据和增强的ASR数据混合,用于指令微调LSM;4) 在下游语音任务上评估LSM的性能。

关键创新:最重要的创新点在于利用模型自身生成的数据进行指令微调,这是一种自驱动的学习方式。与传统的指令微调方法相比,该方法不需要额外的人工标注数据,并且可以根据模型的特点生成更具针对性的训练数据。这种自驱动的方法能够更有效地纠正模型中的偏差,提高模型的泛化能力。

关键设计:论文的关键设计包括:1) 如何生成高质量的增强ASR数据,例如使用不同的解码策略或引入噪声;2) 如何平衡原始语音数据和增强ASR数据在指令微调中的比例;3) 如何设计损失函数,以鼓励模型更好地融合语音和文本信息。具体的参数设置和网络结构细节在论文中进行了详细描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,自驱动LSM能够有效缓解语音锚定偏差,并在多个语音任务上取得了显著的性能提升。具体的数据和对比基线在摘要中没有给出,但论文中应该有详细的实验结果和分析。

🎯 应用场景

该研究成果可应用于语音助手、智能客服、语音翻译等领域,提升语音交互系统的理解能力和准确性。通过缓解语音锚定偏差,可以使模型更好地理解用户的真实意图,从而提供更智能、更个性化的服务。未来,该方法有望推广到其他多模态任务中,促进多模态人工智能的发展。

📄 摘要(原文)

Large language models (LLMs) exhibit remarkable performance across diverse tasks, indicating their potential for expansion into large speech-text models (LSMs) by integrating speech capabilities. Although unified speech-text pre-training and multimodal data instruction-tuning offer considerable benefits, these methods generally entail significant resource demands and tend to overfit specific tasks. This study aims to refine the use of speech datasets for LSM training by addressing the limitations of vanilla instruction tuning. We explore the instruction-following dynamics within LSMs, identifying a critical issue termed speech anchor bias-a tendency for LSMs to over-rely on speech inputs, mistakenly interpreting the entire speech modality as directives, thereby neglecting textual instructions. To counteract this bias, we introduce a self-powered LSM that leverages augmented automatic speech recognition data generated by the model itself for more effective instruction tuning. Our experiments across a range of speech-based tasks demonstrate that self-powered LSM mitigates speech anchor bias and improves the fusion of speech and text modalities in LSMs. Data, code and scripts are freely available at https://github.com/ytf-philp/Self-powered-LSM.