Learn and Don't Forget: Adding a New Language to ASR Foundation Models
作者: Mengjie Qian, Siyuan Tang, Rao Ma, Kate M. Knill, Mark J. F. Gales
分类: eess.AS, cs.CL, cs.LG, cs.SD
发布日期: 2024-07-09 (更新: 2024-09-24)
备注: Proceedings of Interspeech
DOI: 10.21437/Interspeech.2024-1045
💡 一句话要点
针对ASR基础模型,提出多种高效方法集成新语种并保持原有性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音识别 多语言学习 低资源语言 参数高效学习 持续学习
📋 核心要点
- 现有ASR基础模型在新增低资源语言时,直接微调会降低原有语言的性能,这是一个挑战。
- 论文探索了软语言代码调整、软提示调整、LoRA和弹性权重巩固等方法,以解决上述问题。
- 实验表明,直接微调对新语言效果最好,但会降低原有性能;EWC可解决特定语言的性能下降问题。
📝 摘要(中文)
ASR基础模型通常支持多种语言,例如Whisper支持100种语言。然而,关于集成一种新的(通常是低资源)语言,同时保持原始语言集性能的研究有限。微调虽然简单,但可能会降低原始语言集的准确性。本文比较了三种利用适配参数的方法:软语言代码调整(仅训练语言代码),软提示调整(训练前置token)和LoRA(优化一小组附加参数)。弹性权重巩固(EWC)提供了一种替代方案,具有维持特定目标语言性能的潜力。结果表明,直接微调为新语言带来最佳性能,但会降低现有语言的能力。EWC可以解决特定语言的这个问题。如果仅使用适配参数,则可以保持语言能力,但会牺牲新语言的性能。
🔬 方法详解
问题定义:论文旨在解决如何在已有的、支持多种语言的ASR基础模型中,高效地集成一种新的、通常是低资源的语言,同时避免对原有语言的识别性能产生负面影响。现有方法,如直接微调,虽然在新语言上表现良好,但往往会显著降低模型在原有语言上的性能,造成“灾难性遗忘”。
核心思路:论文的核心思路是通过引入参数高效的适配方法,或者使用正则化技术,来限制模型在学习新语言时对原有知识的修改程度。这样可以在学习新语言的同时,尽可能地保留模型在原有语言上的性能。具体来说,论文探索了基于适配参数的方法(软语言代码调整、软提示调整、LoRA)和基于正则化的方法(弹性权重巩固EWC)。
技术框架:论文采用的整体框架是:首先,在一个预训练好的、支持多种语言的ASR基础模型上进行实验。然后,分别使用不同的方法(直接微调、软语言代码调整、软提示调整、LoRA、EWC)来学习新的语言。最后,评估模型在新语言上的性能,以及在原有语言上的性能,并进行比较分析。
关键创新:论文的关键创新在于系统性地比较了几种不同的方法,用于在ASR基础模型中集成新语言,并分析了它们在性能和效率上的优缺点。特别是,论文探讨了参数高效的适配方法(软语言代码调整、软提示调整、LoRA)和正则化方法(EWC)在解决“灾难性遗忘”问题上的潜力。
关键设计:论文的关键设计包括:(1) 软语言代码调整:只训练语言代码的embedding,保持模型其他参数不变。(2) 软提示调整:在输入序列前添加可训练的token,通过训练这些token来引导模型学习新语言。(3) LoRA:引入低秩矩阵来近似参数更新,只训练这些低秩矩阵,从而减少需要训练的参数量。(4) EWC:在损失函数中添加一个正则化项,惩罚对模型参数的显著修改,从而保留原有知识。
🖼️ 关键图片
📊 实验亮点
实验结果表明,直接微调虽然在新语言上表现最佳,但会显著降低原有语言的性能。EWC可以在一定程度上缓解这个问题,但效果有限。参数高效的适配方法(软语言代码调整、软提示调整、LoRA)可以保持原有语言的性能,但会牺牲新语言的性能。因此,需要在新语言的性能和原有语言的性能之间进行权衡。
🎯 应用场景
该研究成果可应用于多语言语音识别系统的快速扩展,尤其是在低资源语言场景下。例如,可以将该方法应用于为特定方言或少数民族语言构建语音识别系统,而无需从头开始训练模型,从而降低开发成本和时间。此外,该方法也有助于构建更加鲁棒和适应性强的语音助手和翻译系统。
📄 摘要(原文)
Foundation ASR models often support many languages, e.g. 100 languages in Whisper. However, there has been limited work on integrating an additional, typically low-resource, language, while maintaining performance on the original language set. Fine-tuning, while simple, may degrade the accuracy of the original set. We compare three approaches that exploit adaptation parameters: soft language code tuning, train only the language code; soft prompt tuning, train prepended tokens; and LoRA where a small set of additional parameters are optimised. Elastic Weight Consolidation (EWC) offers an alternative compromise with the potential to maintain performance in specific target languages. Results show that direct fine-tuning yields the best performance for the new language but degrades existing language capabilities. EWC can address this issue for specific languages. If only adaptation parameters are used, the language capabilities are maintained but at the cost of performance in the new language.