Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale
作者: Hasan Abed Al Kader Hammoud, Mohammad Zbeeb, Bernard Ghanem
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-09-17
备注: Technical Report
💡 一句话要点
提出Hala模型以提升阿拉伯语指令与翻译任务的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 阿拉伯语处理 指令跟随 翻译模型 模型压缩 双语监督 自然语言处理 机器学习
📋 核心要点
- 现有的阿拉伯语指令和翻译模型在性能和效率上存在不足,难以满足大规模应用需求。
- 论文提出了一种翻译与微调的管道,利用压缩的教师模型生成高质量的双语监督数据,进而训练阿拉伯语指令模型。
- Hala模型在多个阿拉伯语基准测试中表现出色,尤其在小型和纳米模型类别中超越了现有基线,展示了显著的性能提升。
📝 摘要(中文)
我们提出了Hala,一个以阿拉伯语为中心的指令和翻译模型系列,采用我们的翻译与微调管道。首先,我们将强大的阿拉伯语与英语教师模型压缩至FP8格式,实现约2倍的吞吐量提升且无质量损失,并利用其生成高保真的双语监督数据。随后,我们对轻量级语言模型LFM2-1.2B进行微调,使用该数据将高质量的英语指令集翻译成阿拉伯语,构建了一个百万规模的专门用于指令跟随的语料库。我们训练了350M、700M、1.2B和9B参数的Hala模型,并应用slerp合并技术,以平衡阿拉伯语专业化与基础模型的优势。在阿拉伯语相关基准测试中,Hala在“纳米”(≤2B)和“小型”(7-9B)类别中均取得了最先进的结果,超越了其基础模型。我们发布了模型、数据、评估和配方,以加速阿拉伯自然语言处理的研究。
🔬 方法详解
问题定义:本论文旨在解决阿拉伯语指令和翻译模型在性能和效率上的不足,现有方法难以处理大规模的阿拉伯语任务。
核心思路:通过压缩强大的阿拉伯语与英语教师模型至FP8格式,提升吞吐量并保持质量,利用生成的高保真双语数据微调轻量级语言模型,从而构建阿拉伯语指令模型。
技术框架:整体流程包括教师模型的压缩、双语监督数据的生成、轻量级模型的微调以及最终的模型训练与合并,确保模型在阿拉伯语任务中的高效性和准确性。
关键创新:最重要的创新在于通过slerp合并技术平衡阿拉伯语专业化与基础模型的优势,使得Hala模型在多个基准测试中表现优异。
关键设计:在模型训练中,采用了多种参数设置和损失函数,确保模型在不同规模(350M到9B参数)下均能有效学习阿拉伯语指令,且在微调过程中保持高质量的翻译效果。
🖼️ 关键图片
📊 实验亮点
Hala模型在阿拉伯语相关基准测试中取得了最先进的结果,尤其在“纳米”(≤2B)和“小型”(7-9B)类别中,超越了基础模型,展示了显著的性能提升,具体提升幅度未知。
🎯 应用场景
该研究的潜在应用领域包括教育、翻译服务和智能助手等,能够为阿拉伯语用户提供更高效的指令理解和翻译支持。未来,Hala模型有望推动阿拉伯自然语言处理技术的发展,促进多语言环境下的交流与合作。
📄 摘要(原文)
We present Hala, a family of Arabic-centric instruction and translation models built with our translate-and-tune pipeline. We first compress a strong AR$\leftrightarrow$EN teacher to FP8 (yielding $\sim$2$\times$ higher throughput with no quality loss) and use it to create high-fidelity bilingual supervision. A lightweight language model LFM2-1.2B is then fine-tuned on this data and used to translate high-quality English instruction sets into Arabic, producing a million-scale corpus tailored to instruction following. We train Hala models at 350M, 700M, 1.2B, and 9B parameters, and apply slerp merging to balance Arabic specialization with base-model strengths. On Arabic-centric benchmarks, Hala achieves state-of-the-art results within both the "nano" ($\leq$2B) and "small" (7-9B) categories, outperforming their bases. We release models, data, evaluation, and recipes to accelerate research in Arabic NLP.