Persian-Phi: Efficient Cross-Lingual Adaptation of Compact LLMs via Curriculum Learning
作者: Amir Mohammad Akhlaghi, Amirhossein Shabani, Mostafa Abdolmaleki, Saeed Reza Kheradpisheh
分类: cs.CL, cs.AI
发布日期: 2025-12-08
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
提出Persian-Phi,通过课程学习高效地将小型LLM跨语言适配到波斯语
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨语言适配 低资源语言 课程学习 参数高效微调 波斯语 大型语言模型 迁移学习
📋 核心要点
- 现有方法训练低资源语言的大型语言模型(LLM)需要巨大的计算成本,阻碍了AI的普及。
- 论文提出了一种资源高效的课程学习流程,通过预热、持续预训练和指令调优,将单语英语模型高效适配到波斯语。
- 实验结果表明,Persian-Phi在波斯语LLM排行榜上取得了有竞争力的结果,验证了该框架的可扩展性。
📝 摘要(中文)
本文提出了Persian-Phi,一个38亿参数的模型,旨在挑战“强大的多语言能力需要庞大的模型规模或多语言基线”这一假设。我们展示了如何通过一种新颖的、资源高效的课程学习流程,将最初为单语英语模型的Microsoft Phi-3 Mini有效地适配到波斯语。我们的方法采用了一种独特的“预热”阶段,使用双语叙事(Tiny Stories)来对齐嵌入,然后通过参数高效微调(PEFT)进行持续预训练和指令调优。尽管模型体积小巧,Persian-Phi在HuggingFace的Open Persian LLM Leaderboard上取得了具有竞争力的结果。我们的研究结果提供了一个经过验证的、可扩展的框架,可以用最少的硬件资源将最先进的LLM扩展到代表性不足的语言。Persian-Phi模型已在https://huggingface.co/amirakhlaghiqqq/PersianPhi上公开。
🔬 方法详解
问题定义:论文旨在解决低资源语言(如波斯语)缺乏高性能LLM的问题。现有方法通常需要从头训练大型模型,计算成本高昂,或者依赖于多语言预训练模型,但这些模型可能在特定语言上的表现不佳。
核心思路:论文的核心思路是通过课程学习,逐步将一个预训练的单语英语模型(Microsoft Phi-3 Mini)适配到波斯语。这种方法避免了从头训练的巨大成本,并利用了现有模型的知识。课程学习策略允许模型先学习简单的双语任务,再逐步过渡到更复杂的波斯语任务。
技术框架:整体框架包含三个主要阶段:1) 预热阶段:使用双语叙事(Tiny Stories)对齐英语和波斯语的嵌入空间。2) 持续预训练阶段:在波斯语语料库上进行持续预训练,使模型更好地理解波斯语的语法和语义。3) 指令调优阶段:使用波斯语指令数据集进行指令调优,提高模型在特定任务上的性能。整个流程采用参数高效微调(PEFT)技术,减少训练所需的计算资源。
关键创新:论文的关键创新在于提出了一种针对低资源语言的资源高效的跨语言适配方法。该方法结合了课程学习和参数高效微调,能够在有限的计算资源下,将一个单语模型成功适配到另一种语言。预热阶段的双语叙事对齐是另一个创新点,它有助于模型更好地理解两种语言之间的关系。
关键设计:预热阶段使用Tiny Stories数据集,包含简单的英语-波斯语平行文本,用于初步对齐词嵌入空间。持续预训练阶段使用大规模波斯语文本语料库,采用标准的语言建模目标进行训练。指令调优阶段使用人工标注的波斯语指令数据集,采用监督学习方法进行训练。PEFT采用LoRA(Low-Rank Adaptation)技术,只训练少量参数,降低计算成本。
🖼️ 关键图片
📊 实验亮点
Persian-Phi在HuggingFace的Open Persian LLM Leaderboard上取得了具有竞争力的结果,证明了该方法的有效性。具体性能数据(例如在特定任务上的准确率或BLEU值)未在摘要中明确给出,但强调了其在资源受限情况下的优越性。该模型在参数量仅为38亿的情况下,能够与更大的模型竞争,突出了其效率。
🎯 应用场景
该研究成果可应用于低资源语言的自然语言处理任务,例如波斯语的机器翻译、文本摘要、问答系统等。该方法降低了训练特定语言LLM的成本,促进了AI技术在更多语言和文化中的普及。未来,该框架可以推广到其他低资源语言,构建更多语言的LLM。
📄 摘要(原文)
The democratization of AI is currently hindered by the immense computational costs required to train Large Language Models (LLMs) for low-resource languages. This paper presents Persian-Phi, a 3.8B parameter model that challenges the assumption that robust multilingual capabilities require massive model sizes or multilingual baselines. We demonstrate how Microsoft Phi-3 Mini -- originally a monolingual English model -- can be effectively adapted to Persian through a novel, resource-efficient curriculum learning pipeline. Our approach employs a unique "warm-up" stage using bilingual narratives (Tiny Stories) to align embeddings prior to heavy training, followed by continual pretraining and instruction tuning via Parameter-Efficient Fine-Tuning (PEFT). Despite its compact size, Persian-Phi achieves competitive results on Open Persian LLM Leaderboard in HuggingFace. Our findings provide a validated, scalable framework for extending the reach of state-of-the-art LLMs to underrepresented languages with minimal hardware resources. The Persian-Phi model is publicly available at https://huggingface.co/amirakhlaghiqqq/PersianPhi.