Zipper-LoRA: Dynamic Parameter Decoupling for Speech-LLM based Multilingual Speech Recognition

作者: Yuxiang Mei, Delai Qiu, Shengping Liu, Jiaen Liang, Yanhua Long

分类: cs.CL, cs.SD

发布日期: 2026-03-18

备注: 13 pages, 8 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出Zipper-LoRA，解决语音LLM多语种语音识别中的稳定性-可塑性困境。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音大型语言模型 多语种语音识别 参数高效微调 LoRA 动态参数解耦

📋 核心要点

现有语音LLM在多语种语音识别中面临稳定性-可塑性困境，共享PEFT易导致负迁移，独立微调则限制知识共享。
Zipper-LoRA通过动态合成共享和特定语言的LoRA更新，在LoRA秩级别实现细粒度的参数共享与解耦。
实验表明，Zipper-LoRA在低资源场景下显著优于共享和独立基线，且在不同编码器配置下具有鲁棒性。

📝 摘要（中文）

语音大型语言模型（Speech-LLM）通过将语音编码器与大型语言模型对齐，已成为自动语音识别（ASR）的一种强大方法。然而，将这些系统应用于具有不平衡数据分布的多语种环境仍然具有挑战性。在这种情况下，经常会出现稳定性-可塑性困境：完全共享的参数高效微调（PEFT）可能导致代表性不足的语言产生负面的跨语言干扰，而完全特定于语言的调整限制了低资源任务所需的跨语言有益知识转移。为了解决这个问题，我们提出了Zipper-LoRA，这是一种新颖的秩级别解耦框架，具有三种变体（静态、硬性和软性），可以动态地从共享和特定于语言的子空间合成LoRA更新。通过使用轻量级的语言条件路由器，Zipper-LoRA在LoRA秩级别动态控制每个子空间的贡献，从而在语言兼容时实现细粒度的共享，并在发生冲突时实现严格的解耦。为了进一步稳定不平衡数据下的优化，我们提出了一种具有初始-B热启动的两阶段训练策略，该策略显著加速了收敛。在12种语言混合资源设置下的实验表明，Zipper-LoRA始终优于完全共享和独立基线，尤其是在极低资源场景中。此外，我们证明了这些增益在分块和非分块编码器配置中都具有鲁棒性，证实了该框架在实际大规模多语种ASR中的可靠性。我们的代码和数据将在https://github.com/YuCeong-May/Zipper-LoRA 上提供，以供重现。

🔬 方法详解

问题定义：论文旨在解决多语种语音识别中，使用语音LLM时面临的稳定性-可塑性困境。现有方法，如完全共享的参数高效微调（PEFT），容易导致低资源语言的负迁移；而完全独立的微调则无法有效利用跨语言的知识共享。这两种极端方法都无法在数据不平衡的多语种场景下取得最佳性能。

核心思路：论文的核心思路是动态地解耦参数更新，允许模型在不同语言之间进行细粒度的参数共享。具体来说，模型学习一个共享的参数子空间和一个或多个特定于语言的参数子空间，并根据输入语言动态地组合这些子空间的更新。这样，模型既可以利用跨语言的通用知识，又可以避免不同语言之间的干扰。

技术框架：Zipper-LoRA框架主要包含以下几个模块：1) 语音编码器：将语音信号转换为特征表示。2) 大型语言模型：用于生成文本序列。3) LoRA模块：在模型的关键层插入LoRA适配器，用于参数高效微调。4) 语言条件路由器：根据输入语言，动态地控制共享和特定于语言的LoRA更新的贡献。5) 两阶段训练策略：首先使用Initial-B热启动进行预训练，然后进行微调。

关键创新：Zipper-LoRA的关键创新在于其动态参数解耦机制。与传统的静态参数共享或独立微调方法不同，Zipper-LoRA能够根据输入语言自适应地调整参数的共享程度。这种动态性使得模型能够更好地平衡稳定性和可塑性，从而在多语种场景下取得更好的性能。此外，在LoRA的秩级别进行解耦，实现了更细粒度的控制。

关键设计：Zipper-LoRA包含三种变体：静态（Static）、硬性（Hard）和软性（Soft）。静态变体使用固定的权重组合共享和特定于语言的LoRA更新。硬性变体使用one-hot向量选择共享或特定于语言的更新。软性变体使用sigmoid函数对共享和特定于语言的更新进行加权。语言条件路由器通常是一个小型神经网络，以语言嵌入作为输入，输出用于控制LoRA更新组合的权重。两阶段训练策略中的Initial-B热启动旨在加速收敛，并避免模型陷入局部最优。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Zipper-LoRA在12种语言的混合资源设置下，始终优于完全共享和独立基线。尤其是在极低资源场景中，性能提升更为显著。该方法在分块和非分块编码器配置下均表现出鲁棒性，验证了其在实际大规模多语种ASR中的可靠性。具体性能数据需要在论文中查找。

🎯 应用场景

Zipper-LoRA可应用于多语种语音识别、语音翻译等领域，尤其适用于低资源语言的场景。该方法能够提升语音LLM在数据不平衡环境下的性能，降低对大量标注数据的依赖，具有重要的实际应用价值。未来可扩展到其他多语种任务，如文本分类、机器翻译等。

📄 摘要（原文）

Speech Large Language Models (Speech-LLMs) have emerged as a powerful approach for automatic speech recognition (ASR) by aligning speech encoders with large language models. However, adapting these systems to multilingual settings with imbalanced data distributions remains challenging. In such scenarios, a stability-plasticity dilemma often arises: fully shared Parameter-Efficient Fine-Tuning (PEFT) can cause negative inter-lingual interference for under-represented languages, while fully language-specific tuning limits the cross-lingual beneficial knowledge transfer needed for low-resource tasks. To address this, we propose Zipper-LoRA, a novel rank-level decoupling framework with three variants (Static, Hard, and Soft) that dynamically synthesizes LoRA updates from shared and language-specific subspaces. By using a lightweight language-conditioned router, Zipper-LoRA dynamically controls the contribution of each subspace at the LoRA rank level, enabling fine-grained sharing where languages are compatible and strict decoupling when conflicts occur. To further stabilize optimization under imbalanced data, we propose a two-stage training strategy with an Initial-B warm start that significantly accelerates convergence. Experiments on a 12-language mixed-resource setting show that Zipper-LoRA consistently outperforms both fully shared and independent baselines, particularly in extremely low-resource scenarios. Moreover, we demonstrate that these gains are robust across both chunked and non-chunked encoder configurations, confirming the framework's reliability for practical, large-scale multilingual ASR. Our code and data will be available at https://github.com/YuCeong-May/Zipper-LoRA for reproducibility.

Zipper-LoRA: Dynamic Parameter Decoupling for Speech-LLM based Multilingual Speech Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理