DeFTX: Denoised Sparse Fine-Tuning for Zero-Shot Cross-Lingual Transfer
作者: Sona Elza Simon, Preethi Jyothi
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-05-21
💡 一句话要点
DeFT-X:通过去噪稀疏微调实现零样本跨语言迁移
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨语言迁移 零样本学习 稀疏微调 奇异值分解 低资源语言
📋 核心要点
- 现有跨语言迁移方法在低资源语言上效果不佳,需要更有效的知识迁移策略。
- DeFT-X通过奇异值分解对预训练模型权重矩阵进行去噪,提升稀疏微调的鲁棒性。
- 实验表明,DeFT-X在极低资源语言的情感分类和自然语言推理任务上表现优异。
📝 摘要(中文)
有效的跨语言迁移仍然是将大型语言模型的优势从高资源语言扩展到低资源语言的关键挑战。为了实现这一目标,先前的研究探索了许多方法,将来自(高资源)源语言中特定任务数据的任务知识与来自(低资源)目标语言中未标记文本的语言知识相结合。一种值得注意的方法提出了可组合的稀疏微调(SFT)用于跨语言迁移,该方法学习特定于任务和特定于语言的稀疏掩码,以选择预训练模型参数的子集进行进一步微调。这些稀疏微调向量(SFT)随后与预训练模型组合,以促进零样本跨语言迁移到目标语言的任务,仅使用来自源语言的特定任务数据。这些用于SFT的稀疏掩码是使用简单的基于幅度剪枝来识别的。在我们的工作中,我们引入了DeFT-X,一种新颖的可组合SFT方法,该方法在使用奇异值分解进行幅度剪枝之前,对预训练模型的权重矩阵进行去噪,从而产生更鲁棒的SFT。我们在情感分类(NusaX)和自然语言推理(AmericasNLI)的各种极低资源语言上评估DeFT-X,并证明它的性能与SFT和其他突出的跨语言迁移基线相当或优于它们。
🔬 方法详解
问题定义:论文旨在解决零样本跨语言迁移问题,特别是在极低资源语言上的应用。现有基于稀疏微调的方法,如SFT,依赖于幅度剪枝来确定重要参数,但容易受到预训练模型权重矩阵中噪声的影响,导致选择的参数并非最优。
核心思路:DeFT-X的核心思路是在进行幅度剪枝之前,先对预训练模型的权重矩阵进行去噪处理。通过奇异值分解(SVD),将权重矩阵分解为奇异值和奇异向量,并滤除较小的奇异值,从而降低噪声的影响,使得后续的幅度剪枝能够选择更具代表性的参数。
技术框架:DeFT-X的整体框架包括以下几个步骤:1) 对预训练模型的权重矩阵进行奇异值分解;2) 设定阈值,滤除较小的奇异值,重构去噪后的权重矩阵;3) 基于去噪后的权重矩阵,使用幅度剪枝确定稀疏掩码;4) 使用稀疏掩码进行微调,得到特定于任务和语言的稀疏微调向量(SFT);5) 将SFT与预训练模型组合,进行零样本跨语言迁移。
关键创新:DeFT-X的关键创新在于引入了奇异值分解进行权重矩阵去噪。与直接使用幅度剪枝的SFT方法相比,DeFT-X能够更有效地识别和保留重要的模型参数,从而提高跨语言迁移的性能。
关键设计:DeFT-X的关键设计包括:1) 奇异值分解的阈值设定,需要根据具体任务和数据集进行调整,以平衡去噪效果和信息损失;2) 稀疏掩码的生成方式,可以采用不同的剪枝策略,如全局剪枝或逐层剪枝;3) 微调过程中的学习率和训练轮数等超参数,需要进行优化以获得最佳性能。
🖼️ 关键图片
📊 实验亮点
DeFT-X在NusaX(情感分类)和AmericasNLI(自然语言推理)数据集上进行了评估,实验结果表明,DeFT-X的性能与SFT和其他跨语言迁移基线相当或优于它们。这表明通过奇异值分解进行权重矩阵去噪能够有效提升稀疏微调的鲁棒性,从而提高零样本跨语言迁移的性能。
🎯 应用场景
DeFT-X可应用于各种低资源语言的自然语言处理任务,例如情感分析、文本分类、机器翻译等。该方法能够有效利用高资源语言的知识,降低对低资源语言标注数据的依赖,具有重要的实际应用价值,有助于推动多语言自然语言处理的发展。
📄 摘要(原文)
Effective cross-lingual transfer remains a critical challenge in scaling the benefits of large language models from high-resource to low-resource languages. Towards this goal, prior studies have explored many approaches to combine task knowledge from task-specific data in a (high-resource) source language and language knowledge from unlabeled text in a (low-resource) target language. One notable approach proposed composable sparse fine-tuning (SFT) for cross-lingual transfer that learns task-specific and language-specific sparse masks to select a subset of the pretrained model's parameters that are further fine-tuned. These sparse fine-tuned vectors (SFTs) are subsequently composed with the pretrained model to facilitate zero-shot cross-lingual transfer to a task in a target language, using only task-specific data from a source language. These sparse masks for SFTs were identified using a simple magnitude-based pruning. In our work, we introduce DeFT-X, a novel composable SFT approach that denoises the weight matrices of a pretrained model before magnitude pruning using singular value decomposition, thus yielding more robust SFTs. We evaluate DeFT-X on a diverse set of extremely low-resource languages for sentiment classification (NusaX) and natural language inference (AmericasNLI) and demonstrate that it performs at par or outperforms SFT and other prominent cross-lingual transfer baselines.