COMPASS: COntinual Multilingual PEFT with Adaptive Semantic Sampling

📄 arXiv: 2604.20720v1 📥 PDF

作者: Noah Flynn

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-22

期刊: Transactions on Machine Learning Research, 2025, https://openreview.net/forum?id=oapsbIO1Bd


💡 一句话要点

COMPASS:自适应语义抽样的持续多语言PEFT,提升LLM跨语言性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言模型 参数高效微调 自适应抽样 持续学习 跨语言迁移

📋 核心要点

  1. 现有LLM多语言微调易受负迁移影响,导致目标语言性能下降。
  2. COMPASS通过自适应语义抽样,选择性地利用辅助数据,优化跨语言迁移。
  3. 实验表明,COMPASS在多个模型和基准测试中,显著优于现有方法。

📝 摘要(中文)

大型语言模型(LLMs)在不同语言之间常常表现出性能差异,而简单的多语言微调由于负面的跨语言干扰,反而会降低性能。为了解决这个问题,我们提出了COMPASS(COntinual Multilingual PEFT with Adaptive Semantic Sampling),这是一个新颖的、以数据为中心的框架,用于将LLMs适配到目标语言。COMPASS利用参数高效微调(PEFT),通过在精心挑选的辅助多语言数据子集上训练轻量级的、特定于语言的适配器来实现。我们方法的核心是一种分布感知的抽样策略,它使用多语言嵌入和聚类来识别现有训练数据和目标使用分布之间的语义差距。通过优先考虑来自代表性不足的语义簇的辅助数据,COMPASS最大化了积极的跨语言迁移,同时最小化了干扰。我们将其扩展到一个持续学习框架COMPASS-ECDA中,该框架监测生产中的数据分布变化,并动态更新适配器以防止模型过时,从而平衡了对新数据的适应和现有知识的保留。在三种不同的模型架构(Phi-4-Mini、Llama-3.1-8B和Qwen2.5-7B)以及多个具有挑战性的多语言基准(Global-MMLU、MMLU-ProX)上,包括未见过的长上下文任务(OneRuler),我们证明了COMPASS始终优于以语言相似性为指导的基线方法,为在动态环境中开发和维护高性能多语言模型提供了一种有效、高效和可持续的解决方案。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在多语言场景下微调时,由于负迁移导致的性能下降问题。现有方法,如简单地混合多语言数据进行微调,或者基于语言相似性选择数据,无法有效避免负迁移,导致模型在目标语言上的表现不佳。

核心思路:COMPASS的核心思路是利用自适应语义抽样,从辅助数据中选择与目标语言数据在语义上存在差距的部分进行微调。通过识别并弥补这些语义差距,COMPASS能够最大化正向跨语言迁移,同时最小化负迁移的影响。这种方法的核心在于关注数据分布,并动态调整训练数据,以适应目标语言的特定需求。

技术框架:COMPASS框架主要包含以下几个阶段:1) 多语言嵌入:使用预训练的多语言模型(如mBERT)将所有语言的数据嵌入到统一的语义空间中。2) 语义聚类:对目标语言数据进行聚类,形成多个语义簇,代表目标语言的不同语义分布。3) 自适应抽样:根据辅助数据在各个语义簇中的分布情况,计算抽样权重。优先选择在目标语言数据中代表性不足的语义簇中的辅助数据。4) 参数高效微调(PEFT):使用选定的辅助数据,通过PEFT方法(如Adapter)对LLM进行微调,得到特定于目标语言的适配器。5) 持续学习(COMPASS-ECDA):监测生产环境中的数据分布变化,动态更新适配器,以适应新的数据分布,并防止模型过时。

关键创新:COMPASS的关键创新在于其自适应语义抽样策略。与传统的基于语言相似性的数据选择方法不同,COMPASS关注的是语义层面的差距,能够更准确地识别对目标语言有益的辅助数据。此外,COMPASS-ECDA的持续学习框架使其能够适应动态变化的数据分布,保证模型在长期使用中的性能。

关键设计:COMPASS的关键设计包括:1) 使用多语言嵌入来构建统一的语义空间。2) 使用聚类算法(如K-means)来识别目标语言数据的语义簇。3) 设计抽样权重计算方法,优先选择在目标语言数据中代表性不足的语义簇中的辅助数据。4) 使用PEFT方法(如Adapter)进行微调,以减少计算成本和存储需求。5) 在COMPASS-ECDA中,使用漂移检测算法来监测数据分布变化,并触发适配器的更新。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,COMPASS在Global-MMLU和MMLU-ProX等多个多语言基准测试中,显著优于基于语言相似性的基线方法。例如,在Llama-3.1-8B模型上,COMPASS在Global-MMLU上的平均准确率提升了超过5%。此外,COMPASS在长上下文任务(OneRuler)上也表现出优越的性能,证明了其在处理复杂多语言任务方面的潜力。

🎯 应用场景

COMPASS适用于需要高性能多语言LLM的各种场景,例如:多语言客服机器人、跨语言信息检索、多语言内容生成等。该研究的实际价值在于降低了开发和维护多语言LLM的成本,提高了模型的跨语言性能。未来,COMPASS可以扩展到更多语言和任务,并与其他技术(如知识蒸馏、对抗训练)相结合,进一步提升模型的性能和鲁棒性。

📄 摘要(原文)

Large language models (LLMs) often exhibit performance disparities across languages, with naive multilingual fine-tuning frequently degrading performance due to negative cross-lingual interference. To address this, we introduce COMPASS (COntinual Multilingual PEFT with Adaptive Semantic Sampling), a novel data-centric framework for adapting LLMs to target languages. COMPASS leverages parameter-efficient fine-tuning (PEFT) by training lightweight, language-specific adapters on a judiciously selected subset of auxiliary multilingual data. The core of our method is a distribution-aware sampling strategy that uses multilingual embeddings and clustering to identify semantic gaps between existing training data and a target usage distribution. By prioritizing auxiliary data from under-represented semantic clusters, COMPASS maximizes positive cross-lingual transfer while minimizing interference. We extend this into a continual learning framework, COMPASS-ECDA, which monitors for data distribution shifts in production and dynamically updates adapters to prevent model staleness, balancing adaptation to new data with the preservation of existing knowledge. Across three different model architectures (Phi-4-Mini, Llama-3.1-8B, and Qwen2.5-7B) and multiple challenging multilingual benchmarks (Global-MMLU, MMLU-ProX), including unseen long-context tasks (OneRuler), we demonstrate that COMPASS consistently outperforms baseline methods guided by linguistic similarity, providing an effective, efficient, and sustainable solution for developing and maintaining high-performing multilingual models in dynamic environments.