Efficient Speech Translation through Model Compression and Knowledge Distillation

📄 arXiv: 2505.20237v2 📥 PDF

作者: Yasmin Moslem

分类: cs.CL, cs.SD, eess.AS

发布日期: 2025-05-26 (更新: 2025-06-02)

备注: IWSLT 2025

期刊: Proceedings of the 22nd International Conference on Spoken Language Translation (IWSLT 2025)

DOI: 10.18653/v1/2025.iwslt-1.40


💡 一句话要点

提出结合模型压缩与知识蒸馏的高效语音翻译方法,提升大模型部署效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 语音翻译 模型压缩 知识蒸馏 剪枝 量化 低秩适应 Qwen2-Audio

📋 核心要点

  1. 大型语音翻译模型计算需求高,部署困难,现有方法难以兼顾效率与精度。
  2. 采用迭代剪枝、低秩适应量化(QLoRA)和知识蒸馏等技术压缩模型,降低计算成本。
  3. 实验表明,压缩后的模型参数和存储空间减少50%,翻译质量保持在教师模型的97-100%。

📝 摘要(中文)

本文针对大型音频-语言模型在语音翻译中部署效率低下的问题,提出了结合模型压缩与知识蒸馏的解决方案,并参与了国际口语翻译会议(IWSLT 2025)的“模型压缩”赛道。我们实验了多种方法,包括基于层重要性评估的迭代层剪枝、带有4比特量化的低秩适应(QLoRA)以及知识蒸馏。实验中,我们使用Qwen2-Audio-7B-Instruct模型进行到德语和中文的语音翻译。结果表明,剪枝后的学生模型在模型参数和存储空间上减少了高达50%,同时在领域内翻译质量上保留了教师模型97-100%的性能。

🔬 方法详解

问题定义:论文旨在解决大型语音翻译模型部署时计算资源需求过高的问题。现有方法在压缩模型时,往往会显著降低翻译质量,难以在效率和精度之间取得平衡。

核心思路:论文的核心思路是通过结合多种模型压缩技术,包括剪枝、量化和知识蒸馏,在尽可能减少模型参数和计算量的同时,保持翻译质量。通过知识蒸馏,让小模型(学生模型)学习大模型(教师模型)的知识,从而弥补压缩带来的性能损失。

技术框架:整体框架包含以下几个主要阶段:1) 使用Qwen2-Audio-7B-Instruct作为教师模型。2) 通过迭代剪枝,移除模型中不重要的层,减少参数量。3) 使用QLoRA对模型进行量化,进一步压缩模型大小。4) 使用知识蒸馏,训练剪枝和量化后的学生模型,使其逼近教师模型的性能。

关键创新:论文的关键创新在于将迭代剪枝、QLoRA量化和知识蒸馏三种技术有效结合,实现了在大幅压缩模型的同时,尽可能地保留了翻译质量。与单独使用某种压缩技术相比,这种组合方法能够更好地平衡效率和精度。

关键设计:迭代剪枝基于层重要性评估,选择性地移除对翻译质量影响较小的层。QLoRA使用4比特量化,显著降低模型存储空间。知识蒸馏使用教师模型的输出作为监督信号,指导学生模型的训练。具体的损失函数和训练策略未知。

📊 实验亮点

实验结果表明,通过结合迭代剪枝、QLoRA和知识蒸馏,模型参数和存储空间减少了高达50%,同时在领域内翻译质量上保留了教师模型97-100%的性能。这表明该方法在压缩模型的同时,能够有效地保持翻译质量。

🎯 应用场景

该研究成果可应用于各种需要高效语音翻译的场景,例如移动设备上的实时翻译、低资源环境下的语音助手、以及大规模语音数据处理等。通过降低模型大小和计算需求,可以使语音翻译技术更易于部署和使用,从而促进跨语言交流。

📄 摘要(原文)

Efficient deployment of large audio-language models for speech translation remains challenging due to their significant computational requirements. In this paper, we address this challenge through our system submissions to the "Model Compression" track at the International Conference on Spoken Language Translation (IWSLT 2025). We experiment with a combination of approaches including iterative layer pruning based on layer importance evaluation, low-rank adaptation with 4-bit quantization (QLoRA), and knowledge distillation. In our experiments, we use Qwen2-Audio-7B-Instruct for speech translation into German and Chinese. Our pruned (student) models achieve up to a 50% reduction in both model parameters and storage footprint, while retaining 97-100% of the translation quality of the in-domain (teacher) models.