Cross-Lingual Optimization for Language Transfer in Large Language Models
作者: Jungseob Lee, Seongtae Hong, Hyeonseok Moon, Heuiseok Lim
分类: cs.CL
发布日期: 2025-05-20
备注: Accepted for publication at ACL 2025. Jungseob Lee and Seongtae Hong contributed equally to this work
💡 一句话要点
提出跨语言优化(CLO)方法,提升大语言模型跨语言迁移能力并保持英语性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨语言迁移 大语言模型 监督微调 低资源语言 机器翻译
📋 核心要点
- 现有SFT方法在跨语言迁移时,容易过度拟合英语数据,导致目标语言性能不佳,尤其是在数据稀缺场景下。
- 论文提出CLO方法,利用翻译模型和英文SFT数据,在保持英文能力的同时,高效迁移到目标语言。
- 实验表明,CLO在多种语言上均优于SFT,尤其在低资源语言上,可以用更少数据达到更好效果,且更具鲁棒性。
📝 摘要(中文)
将大型语言模型适配到其他语言通常采用监督微调(SFT)作为标准方法。然而,这种方法常常过度强调英语性能,尤其是在数据受限的环境中。为了克服这些挑战,我们提出了跨语言优化(CLO),它能有效地将以英语为中心的LLM迁移到目标语言,同时保持其英语能力。CLO利用公开的英语SFT数据和一个翻译模型来实现跨语言迁移。我们使用五种模型在六种语言上进行了实验,每种语言都具有不同程度的资源。结果表明,CLO在获得目标语言能力和保持英语性能方面始终优于SFT。值得注意的是,在低资源语言中,仅使用3,200个样本的CLO超过了使用6,400个样本的SFT,表明CLO可以用更少的数据获得更好的性能。此外,我们发现SFT对中低资源语言的数据量特别敏感,而CLO保持了稳健性。我们的综合分析强调了SFT的局限性,并在CLO中加入了额外的训练策略以提高效率。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在跨语言迁移过程中,使用监督微调(SFT)方法时,过度依赖英语数据,导致目标语言性能下降,尤其是在低资源语言环境下表现不佳的问题。现有SFT方法的痛点在于无法有效平衡英语性能和目标语言性能,且对数据量敏感。
核心思路:论文的核心思路是利用跨语言优化(CLO)方法,通过结合公开的英文SFT数据和翻译模型,实现从英语到目标语言的知识迁移。这种方法旨在减少对目标语言数据的依赖,同时保持模型原有的英语能力。通过英文数据和翻译数据的结合,可以有效地提升模型在目标语言上的泛化能力。
技术框架:CLO的技术框架主要包含以下几个阶段:1) 使用公开的英文SFT数据对模型进行预训练或微调;2) 利用翻译模型将英文数据翻译成目标语言数据;3) 将英文SFT数据和翻译后的目标语言数据混合,用于进一步的微调训练。整体流程旨在利用丰富的英文资源来辅助目标语言的学习,从而提高跨语言迁移的效率和效果。
关键创新:CLO最重要的技术创新点在于其跨语言优化的策略,它避免了完全依赖目标语言数据进行微调,而是巧妙地利用了英文数据和翻译模型,实现了知识的有效迁移。与传统的SFT方法相比,CLO能够更好地平衡英语性能和目标语言性能,尤其是在低资源语言环境下,能够显著提升模型性能。
关键设计:CLO的关键设计包括:1) 选择合适的翻译模型,以保证翻译质量;2) 合理设置英文数据和翻译数据的比例,以平衡英语性能和目标语言性能;3) 探索不同的训练策略,例如多任务学习或对抗训练,以进一步提高模型的泛化能力。具体的损失函数和网络结构沿用了SFT的常用设置,但针对跨语言迁移进行了优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CLO在多种语言上均优于SFT。在低资源语言中,仅使用3,200个样本的CLO超过了使用6,400个样本的SFT,证明CLO可以用更少的数据获得更好的性能。此外,研究发现SFT对中低资源语言的数据量特别敏感,而CLO保持了稳健性,显示出更强的泛化能力。
🎯 应用场景
该研究成果可广泛应用于多语言自然语言处理任务,例如机器翻译、跨语言信息检索、多语言文本摘要等。尤其在低资源语言场景下,该方法能够有效提升模型性能,降低数据标注成本。未来,该方法有望促进全球范围内不同语言之间的信息交流和知识共享。
📄 摘要(原文)
Adapting large language models to other languages typically employs supervised fine-tuning (SFT) as a standard approach. However, it often suffers from an overemphasis on English performance, a phenomenon that is especially pronounced in data-constrained environments. To overcome these challenges, we propose \textbf{Cross-Lingual Optimization (CLO)} that efficiently transfers an English-centric LLM to a target language while preserving its English capabilities. CLO utilizes publicly available English SFT data and a translation model to enable cross-lingual transfer. We conduct experiments using five models on six languages, each possessing varying levels of resource. Our results show that CLO consistently outperforms SFT in both acquiring target language proficiency and maintaining English performance. Remarkably, in low-resource languages, CLO with only 3,200 samples surpasses SFT with 6,400 samples, demonstrating that CLO can achieve better performance with less data. Furthermore, we find that SFT is particularly sensitive to data quantity in medium and low-resource languages, whereas CLO remains robust. Our comprehensive analysis emphasizes the limitations of SFT and incorporates additional training strategies in CLO to enhance efficiency.