Cross-Modal Knowledge Distillation for Speech Large Language Models

📄 arXiv: 2509.14930v1 📥 PDF

作者: Enzhi Wang, Qicheng Li, Zhiyuan Tang, Yuhang Jia

分类: cs.CL, cs.AI

发布日期: 2025-09-18


💡 一句话要点

提出跨模态知识蒸馏框架,解决语音大语言模型中的灾难性遗忘和模态不等价问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音大语言模型 跨模态学习 知识蒸馏 灾难性遗忘 模态不等价 语音理解 文本理解

📋 核心要点

  1. 语音大语言模型在引入语音能力后,即使是文本输入,其知识和推理能力也会下降,语音查询时性能更差。
  2. 提出跨模态知识蒸馏框架,利用文本到文本和语音到文本通道,将知识从文本教师模型迁移到语音LLM。
  3. 实验表明,该方法能有效保留文本知识,改善跨模态对齐,并提升语音交互中的推理能力。

📝 摘要(中文)

本文首次系统性地评估了语音大语言模型中存在的灾难性遗忘和模态不等价问题。研究表明,引入语音能力会降低模型的知识和推理能力,即使输入仍然是文本形式,并且当使用语音查询时,性能会进一步下降。为了解决这些挑战,我们提出了一个跨模态知识蒸馏框架,该框架利用文本到文本和语音到文本两种通道,将知识从基于文本的教师模型迁移到语音LLM。在对话和音频理解任务上的大量实验验证了我们方法在保留文本知识、改善跨模态对齐以及增强基于语音交互的推理能力方面的有效性。

🔬 方法详解

问题定义:语音大语言模型在融合语音能力时,面临灾难性遗忘问题,即在学习语音相关任务后,模型在原有文本任务上的性能显著下降。此外,还存在模态不等价问题,即对于相同语义的文本和语音输入,模型表现出不一致的理解和推理能力。现有方法难以有效解决这些问题,导致语音LLM的实用性受限。

核心思路:本文的核心思路是利用知识蒸馏,将一个预训练的、具有强大文本理解能力的教师模型中的知识迁移到语音LLM中。通过跨模态的知识迁移,可以有效地缓解灾难性遗忘问题,并提升语音LLM的跨模态对齐能力。

技术框架:整体框架包含一个文本教师模型和一个语音学生模型。教师模型接收文本输入,学生模型同时接收文本和语音输入。框架包含两个主要的蒸馏通道:文本到文本蒸馏和语音到文本蒸馏。文本到文本蒸馏用于保留学生模型在文本任务上的知识,语音到文本蒸馏用于提升学生模型对语音输入的理解能力。

关键创新:关键创新在于提出了跨模态的知识蒸馏方法,将文本教师模型的知识同时通过文本和语音两种模态迁移到学生模型。这种方法不仅可以缓解灾难性遗忘,还可以提升语音LLM的跨模态对齐能力,使其更好地理解和处理语音输入。与传统的知识蒸馏方法相比,本文的方法充分利用了语音模态的信息,从而更好地提升了语音LLM的性能。

关键设计:在文本到文本蒸馏中,使用KL散度损失来衡量教师模型和学生模型在文本输出上的差异。在语音到文本蒸馏中,首先将语音输入转换为文本表示,然后使用KL散度损失来衡量教师模型和学生模型在文本输出上的差异。此外,还引入了对比学习损失,用于进一步提升学生模型对语音输入的理解能力。具体的参数设置和网络结构细节在论文中有详细描述。

📊 实验亮点

实验结果表明,提出的跨模态知识蒸馏框架能够显著提升语音大语言模型的性能。在对话和音频理解任务上,该方法在保留文本知识、改善跨模态对齐以及增强基于语音交互的推理能力方面均取得了显著提升。具体性能数据和对比基线在论文中有详细展示。

🎯 应用场景

该研究成果可应用于智能语音助手、语音搜索、语音对话系统等领域。通过提升语音大语言模型的性能,可以实现更自然、更高效的人机交互,为用户提供更智能化的服务。未来,该技术有望在教育、医疗、金融等领域发挥重要作用。

📄 摘要(原文)

In this work, we present the first systematic evaluation of catastrophic forgetting and modality inequivalence in speech large language models, showing that introducing speech capabilities can degrade knowledge and reasoning even when inputs remain textual, and performance further decreases with spoken queries. To address these challenges, we propose a cross-modal knowledge distillation framework that leverages both text-to-text and speech-to-text channels to transfer knowledge from a text-based teacher model to a speech LLM. Extensive experiments on dialogue and audio understanding tasks validate the effectiveness of our approach in preserving textual knowledge, improving cross-modal alignment, and enhancing reasoning in speech-based interactions.