Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale

作者: Hasan Abed Al Kader Hammoud, Mohammad Zbeeb, Bernard Ghanem

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-09-17

备注: Technical Report

💡 一句话要点

提出Hala模型以提升阿拉伯语指令与翻译任务的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 阿拉伯语处理 指令跟随 翻译模型 模型压缩 双语监督 自然语言处理 机器学习

📋 核心要点

现有的阿拉伯语指令和翻译模型在性能和效率上存在不足，难以满足大规模应用需求。
论文提出了一种翻译与微调的管道，利用压缩的教师模型生成高质量的双语监督数据，进而训练阿拉伯语指令模型。
Hala模型在多个阿拉伯语基准测试中表现出色，尤其在小型和纳米模型类别中超越了现有基线，展示了显著的性能提升。

📝 摘要（中文）

我们提出了Hala，一个以阿拉伯语为中心的指令和翻译模型系列，采用我们的翻译与微调管道。首先，我们将强大的阿拉伯语与英语教师模型压缩至FP8格式，实现约2倍的吞吐量提升且无质量损失，并利用其生成高保真的双语监督数据。随后，我们对轻量级语言模型LFM2-1.2B进行微调，使用该数据将高质量的英语指令集翻译成阿拉伯语，构建了一个百万规模的专门用于指令跟随的语料库。我们训练了350M、700M、1.2B和9B参数的Hala模型，并应用slerp合并技术，以平衡阿拉伯语专业化与基础模型的优势。在阿拉伯语相关基准测试中，Hala在“纳米”（≤2B）和“小型”（7-9B）类别中均取得了最先进的结果，超越了其基础模型。我们发布了模型、数据、评估和配方，以加速阿拉伯自然语言处理的研究。

🔬 方法详解

问题定义：本论文旨在解决阿拉伯语指令和翻译模型在性能和效率上的不足，现有方法难以处理大规模的阿拉伯语任务。

核心思路：通过压缩强大的阿拉伯语与英语教师模型至FP8格式，提升吞吐量并保持质量，利用生成的高保真双语数据微调轻量级语言模型，从而构建阿拉伯语指令模型。

技术框架：整体流程包括教师模型的压缩、双语监督数据的生成、轻量级模型的微调以及最终的模型训练与合并，确保模型在阿拉伯语任务中的高效性和准确性。

关键创新：最重要的创新在于通过slerp合并技术平衡阿拉伯语专业化与基础模型的优势，使得Hala模型在多个基准测试中表现优异。

关键设计：在模型训练中，采用了多种参数设置和损失函数，确保模型在不同规模（350M到9B参数）下均能有效学习阿拉伯语指令，且在微调过程中保持高质量的翻译效果。

🖼️ 关键图片

📊 实验亮点

Hala模型在阿拉伯语相关基准测试中取得了最先进的结果，尤其在“纳米”（≤2B）和“小型”（7-9B）类别中，超越了基础模型，展示了显著的性能提升，具体提升幅度未知。

🎯 应用场景

该研究的潜在应用领域包括教育、翻译服务和智能助手等，能够为阿拉伯语用户提供更高效的指令理解和翻译支持。未来，Hala模型有望推动阿拉伯自然语言处理技术的发展，促进多语言环境下的交流与合作。

📄 摘要（原文）

We present Hala, a family of Arabic-centric instruction and translation models built with our translate-and-tune pipeline. We first compress a strong AR$\leftrightarrow$EN teacher to FP8 (yielding $\sim$2$\times$ higher throughput with no quality loss) and use it to create high-fidelity bilingual supervision. A lightweight language model LFM2-1.2B is then fine-tuned on this data and used to translate high-quality English instruction sets into Arabic, producing a million-scale corpus tailored to instruction following. We train Hala models at 350M, 700M, 1.2B, and 9B parameters, and apply slerp merging to balance Arabic specialization with base-model strengths. On Arabic-centric benchmarks, Hala achieves state-of-the-art results within both the "nano" ($\leq$2B) and "small" (7-9B) categories, outperforming their bases. We release models, data, evaluation, and recipes to accelerate research in Arabic NLP.

Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理