Bayesian Low-Rank Factorization for Robust Model Adaptation

📄 arXiv: 2510.18723v1 📥 PDF

作者: Enes Yavuz Ugan, Ngoc-Quan Pham, Alexander Waibel

分类: cs.CL, cs.LG, cs.SD, eess.AS

发布日期: 2025-10-21

备注: Submitted to ICASSP 2026


💡 一句话要点

提出基于贝叶斯低秩分解的适配器,用于稳健地适应语音基础模型,解决代码切换场景下的过拟合问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音识别 代码切换 贝叶斯推断 低秩分解 模型适配 灾难性遗忘 语音基础模型

📋 核心要点

  1. 直接微调语音基础模型易导致过拟合,并损失其通用能力,尤其是在代码切换等场景下。
  2. 论文提出贝叶斯分解适配器,通过设置接近于零的先验,实现稀疏适配,保留模型通用性。
  3. 实验表明,该方法在减少灾难性遗忘的同时,保持了较小的适配损失,优于 LoRA。

📝 摘要(中文)

大型语音基础模型在许多领域表现出色,但通常需要进行适配以处理本地需求,例如代码切换,即说话者在同一话语中混合使用多种语言。直接微调这些模型存在过拟合目标域和覆盖基础模型广泛能力的风险。为了解决这个问题,我们探索了用于语音基础模型的贝叶斯分解适配器,该适配器将先验设置接近于零,以实现更稀疏的适配矩阵,从而在适应特定领域的同时保持通用性能。我们将我们的方法应用于 Whisper 模型,并在不同的多语言代码切换场景中进行评估。结果表明,只有极小的适配损失,同时显著减少了基础模型的灾难性遗忘。与 LoRA 相比,我们的方法实现了 54% 的后向增益,而新领域的性能仅下降 4%。这些发现突出了贝叶斯适配在微调语音基础模型方面的有效性,且不会牺牲泛化能力。

🔬 方法详解

问题定义:论文旨在解决语音基础模型在代码切换等特定领域进行微调时,容易过拟合目标领域数据,并导致灾难性遗忘,即模型在原始通用任务上的性能显著下降的问题。现有方法,如直接微调,无法很好地平衡领域适应性和通用性保持。

核心思路:论文的核心思路是利用贝叶斯低秩分解来构建适配器。通过在适配矩阵上施加接近于零的先验,鼓励模型学习稀疏的适配参数。这种稀疏性有助于模型在适应新领域的同时,保留从大规模数据中学到的通用知识,从而减轻灾难性遗忘。

技术框架:该方法主要包含以下几个步骤:首先,选择一个预训练的语音基础模型,例如 Whisper。然后,在模型的某些层插入低秩适配器模块。这些适配器模块由两个低秩矩阵组成,用于调整模型的激活。关键在于,这些低秩矩阵的参数不是直接学习的,而是通过贝叶斯推断来估计的,其中使用了接近于零的先验分布。最后,使用目标领域的数据对模型进行微调,同时利用贝叶斯推断更新适配器参数。

关键创新:该方法最重要的创新点在于将贝叶斯推断与低秩分解相结合,用于适配语音基础模型。与传统的低秩适配方法(如 LoRA)不同,该方法不是直接学习适配矩阵的参数,而是通过贝叶斯推断来估计,并利用先验信息来约束参数的稀疏性。这种贝叶斯方法能够更好地平衡领域适应性和通用性保持,从而减轻灾难性遗忘。

关键设计:论文的关键设计包括:1) 使用低秩分解来减少适配器的参数量,从而降低过拟合的风险。2) 在适配矩阵上施加接近于零的先验分布,鼓励模型学习稀疏的适配参数。3) 使用变分推断来近似贝叶斯后验分布,从而实现高效的参数估计。4) 损失函数包括领域适应损失和正则化项,用于平衡领域适应性和通用性保持。

📊 实验亮点

实验结果表明,与 LoRA 相比,该方法在代码切换场景下实现了显著的性能提升。具体来说,该方法在保持新领域性能仅下降 4% 的情况下,实现了 54% 的后向增益,表明其能够有效减轻灾难性遗忘。这些结果验证了贝叶斯适配器在微调语音基础模型方面的有效性。

🎯 应用场景

该研究成果可广泛应用于语音识别、语音翻译等领域,尤其是在多语言环境和资源受限的场景下。例如,可以用于开发能够处理代码切换的语音助手,或者用于快速适应特定方言或口音的语音识别系统。该方法有助于降低模型部署成本,并提高模型在实际应用中的鲁棒性和泛化能力。

📄 摘要(原文)

Large speech foundation models achieve strong performance across many domains, but they often require adaptation to handle local needs such as code-switching, where speakers mix languages within the same utterance. Direct fine-tuning of these models risks overfitting to the target domain and overwriting the broad capabilities of the base model. To address this challenge, we explore Bayesian factorized adapters for speech foundation models, which place priors near zero to achieve sparser adaptation matrices and thereby retain general performance while adapting to specific domains. We apply our approach to the Whisper model and evaluate on different multilingual code-switching scenarios. Our results show only minimal adaptation loss while significantly reducing catastrophic forgetting of the base model. Compared to LoRA, our method achieves a backward gain of 54% with only a 4% drop on the new domain. These findings highlight the effectiveness of Bayesian adaptation for fine-tuning speech foundation models without sacrificing generalization.