GemMaroc: Unlocking Darija Proficiency in LLMs with Minimal Data

📄 arXiv: 2505.17082v1 📥 PDF

作者: Abderrahman Skiredj, Ferdaous Azhari, Houdaifa Atou, Nouamane Tazi, Ismail Berrada

分类: cs.CL, cs.AI

发布日期: 2025-05-20


💡 一句话要点

GemMaroc:利用少量数据提升LLM在摩洛哥阿拉伯语(Darija)上的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 摩洛哥阿拉伯语 Darija 大型语言模型 指令微调 低资源语言

📋 核心要点

  1. 现有开源LLM对摩洛哥阿拉伯语(Darija)支持不足,需要额外的适配器或牺牲推理能力。
  2. 论文提出一种质量优先的对齐策略,通过少量数据微调,提升LLM在Darija上的能力,同时保持跨语言推理能力。
  3. 实验表明,基于Gemma的GemMaroc模型在Darija基准测试上取得了显著提升,且保持了原有的数学和通用推理能力。

📝 摘要(中文)

开源大型语言模型(LLM)对摩洛哥阿拉伯语(Darija)的支持仍然不足,迫使从业者要么附加重量级的阿拉伯语适配器,要么牺牲LLM的推理能力。本文表明,一种严格的质量优先于数量的对齐策略,可以在保证底层跨语言推理能力的同时,以极少的计算资源获得流利的Darija能力。我们将LIMA 1K、DEITA 6K和TULU 50K三个精简指令集翻译成Darija,保留了20个英文原始指令,并添加了数学、编码和科学提示。在混合了5K指令的数据集上,LoRA微调的Gemma 3-4B模型将DarijaMMLU从32.8提升到42.7;添加推理密集的TULU部分后,进一步提升到47.5,且没有英文性能衰退。将相同的方案扩展到Gemma 3-27B,产生了GemMaroc-27B,它在DarijaMMLU上与Atlas-Chat相匹配(61.6),并在Darija常识推理上领先,在HellaSwag上获得60.5分,而Atlas-Chat为48.4。重要的是,GemMaroc保留了Gemma-27B强大的数学和通用推理能力,在GSM8K和英文基准测试中只有最小的性能变化。整个模型的训练仅需48 GPU.h,突出了通往包容性、可持续语言技术的绿色AI途径。我们发布代码、数据和检查点,以促进以Darija为中心的教育、公共服务和日常数字互动应用。

🔬 方法详解

问题定义:现有开源LLM在摩洛哥阿拉伯语(Darija)上的表现不佳,无法直接应用于该语言环境。为了提升LLM在Darija上的能力,通常需要引入大型的阿拉伯语适配器,但这会增加计算成本,并可能损害模型原有的推理能力。因此,如何在有限的计算资源下,有效提升LLM在Darija上的表现,同时保持其通用能力,是一个亟待解决的问题。

核心思路:论文的核心思路是采用一种“质量优先于数量”的对齐策略。这意味着,与其使用大量低质量的Darija数据进行训练,不如使用少量但高质量的指令数据,对LLM进行微调。通过精心挑选和翻译指令数据,可以有效地引导模型学习Darija语言的特性,并提升其在该语言上的表现。同时,保留少量英文原始指令,可以避免模型在通用能力上的退化。

技术框架:GemMaroc的训练流程主要包括以下几个步骤:1) 数据准备:将LIMA 1K、DEITA 6K和TULU 50K三个指令集翻译成Darija,并保留20个英文原始指令。同时,添加数学、编码和科学提示,以增强模型的特定领域能力。2) 模型微调:使用LoRA(Low-Rank Adaptation)技术,在Gemma 3-4B或Gemma 3-27B模型上进行微调。LoRA通过引入低秩矩阵来更新模型参数,从而降低计算成本和显存占用。3) 模型评估:在DarijaMMLU、HellaSwag、GSM8K等基准测试上评估模型的性能。

关键创新:该论文的关键创新在于提出了一种基于少量高质量数据的Darija语言模型微调方法。与传统的基于大量数据的训练方法相比,该方法可以在有限的计算资源下,有效地提升LLM在Darija上的表现,同时保持其通用能力。此外,该论文还探索了不同指令集对模型性能的影响,并发现推理密集的TULU指令集可以进一步提升模型的Darija能力。

关键设计:在数据准备阶段,论文作者精心挑选了三个指令集(LIMA、DEITA和TULU),这些指令集涵盖了不同的任务类型和难度级别。在模型微调阶段,论文作者使用了LoRA技术,并将LoRA的秩设置为一个合适的值,以平衡模型性能和计算成本。在模型评估阶段,论文作者使用了多个基准测试,以全面评估模型的Darija能力和通用能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GemMaroc-27B在DarijaMMLU上与Atlas-Chat相匹配(61.6),并在Darija常识推理上领先,在HellaSwag上获得60.5分,而Atlas-Chat为48.4。重要的是,GemMaroc保留了Gemma-27B强大的数学和通用推理能力,在GSM8K和英文基准测试中只有最小的性能变化。整个模型的训练仅需48 GPU.h。

🎯 应用场景

GemMaroc的潜在应用领域包括教育、公共服务和日常数字互动。它可以用于开发Darija语言的教育资源,例如语言学习应用和智能辅导系统。在公共服务领域,它可以用于构建Darija语言的聊天机器人,为民众提供便捷的信息查询和问题解答服务。在日常数字互动中,它可以用于改进语音识别、机器翻译等技术,促进Darija语言的数字化发展。

📄 摘要(原文)

Open-source large language models (LLMs) still marginalise Moroccan Arabic (Darija), forcing practitioners either to bolt on heavyweight Arabic adapters or to sacrifice the very reasoning skills that make LLMs useful. We show that a rigorously quality-over-quantity alignment strategy can surface fluent Darija while safeguarding the backbone s cross-lingual reasoning at a sliver of the usual compute. We translate three compact instruction suites LIMA 1 K, DEITA 6 K and TULU 50 K into Darija, preserve 20 of the English originals, and add mathematics, coding and scientific prompts. A LoRA-tuned Gemma 3-4B trained on 5 K mixed instructions lifts DarijaMMLU from 32.8 to 42.7 ; adding the reasoning-dense TULU portion pushes it to 47.5 with no English regression. Scaling the identical recipe to Gemma 3-27B produces GemMaroc-27B, which matches Atlas-Chat on DarijaMMLU (61.6 ) and leaps ahead on Darija commonsense, scoring 60.5 on HellaSwag versus Atlas-Chat s 48.4 . Crucially, GemMaroc retains Gemma-27B s strong maths and general-reasoning ability, showing only minimal movement on GSM8K and English benchmarks. The entire model is trained in just 48 GPU.h, underscoring a Green AI pathway to inclusive, sustainable language technology. We release code, data and checkpoints to spur Darija-centric applications in education, public services and everyday digital interaction.