3LM: Bridging Arabic, STEM, and Code through Benchmarking

作者: Basma El Amel Boussaha, Leen AlQadi, Mugariya Farooq, Shaikha Alsuwaidi, Giulia Campesan, Ahmed Alzubaidi, Mohammed Alyafeai, Hakim Hacid

分类: cs.CL

发布日期: 2025-07-21 (更新: 2025-07-25)

💡 一句话要点

3LM：构建阿拉伯语、STEM和代码的LLM评测基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 阿拉伯语LLM 基准测试 STEM教育 代码生成 自然语言处理

📋 核心要点

现有阿拉伯语LLM评测benchmark主要集中于语言文化等方面，缺乏对STEM和代码能力的有效评估。
3LM基准套件包含自然STEM问答、合成STEM问题和代码生成三个部分，全面评估LLM在相关领域的性能。
通过人工参与的多轮翻译和审查，3LM确保了基准测试的高质量和可靠性，促进阿拉伯语LLM发展。

📝 摘要（中文）

阿拉伯语是世界上使用最广泛的语言之一，但用于开发和评估阿拉伯语大型语言模型（LLM）的工作相对有限。现有的大多数阿拉伯语基准测试侧重于语言、文化或宗教内容，在STEM和代码等领域存在显著差距，而这些领域对于实际的LLM应用越来越重要。为了弥合这一差距，我们提出了3LM，一套专门为阿拉伯语设计的三个基准测试。第一个是源自阿拉伯语教科书和教育工作表的STEM相关问答对。第二个是使用相同来源生成的合成STEM问题。第三个基准测试侧重于代码生成，通过仔细翻译两个广泛使用的代码基准测试构建，并结合人工参与的流程，经过多轮审查，以确保高质量和忠实的翻译。我们公开发布所有三个基准测试，以支持阿拉伯语LLM研究在这些重要但代表性不足的领域的发展。

🔬 方法详解

问题定义：现有阿拉伯语大型语言模型（LLM）的评估基准主要集中在语言、文化和宗教领域，缺乏对STEM（科学、技术、工程和数学）以及代码生成能力的有效评估。这限制了阿拉伯语LLM在实际应用中的潜力，尤其是在需要专业知识和编程能力的场景下。现有方法无法全面衡量LLM在这些关键领域的性能。

核心思路：3LM的核心思路是构建一套专门针对阿拉伯语的、覆盖STEM和代码领域的基准测试，从而更全面地评估和提升阿拉伯语LLM的能力。通过提供高质量的评测数据，鼓励研究人员开发更强大的阿拉伯语LLM，并推动其在实际应用中的落地。

技术框架：3LM包含三个主要的基准测试： 1. 自然STEM问答：从阿拉伯语教科书和教育工作表中收集真实的STEM问题和答案对。 2. 合成STEM问题：使用与自然STEM问答相同的来源，生成新的STEM问题。 3. 代码生成：将两个广泛使用的代码生成基准测试翻译成阿拉伯语。整个流程包括数据收集、问题生成、翻译、人工审查和基准测试发布等环节。

关键创新：3LM的关键创新在于其专注于阿拉伯语LLM中代表性不足的STEM和代码领域。通过结合自然数据、合成数据和高质量翻译，构建了一个全面且可靠的评估体系。此外，人工参与的翻译和审查过程确保了基准测试的准确性和质量。

关键设计：在代码生成基准测试中，采用了人工参与的翻译方法，并经过多轮审查，以确保翻译的准确性和忠实性。具体而言，翻译过程由专业的翻译人员完成，并由领域专家进行审核，以确保技术术语的正确使用。此外，还采用了多种指标来评估翻译质量，例如BLEU、ROUGE等。

📊 实验亮点

3LM通过构建包含自然STEM问答、合成STEM问题和代码生成三个部分的基准测试，填补了阿拉伯语LLM评估在STEM和代码领域的空白。该基准测试经过人工多轮审查，保证了高质量和可靠性，为后续研究提供了有力支撑。具体性能数据和对比基线将在后续研究中给出。

🎯 应用场景

3LM基准测试套件可用于评估和提升阿拉伯语LLM在教育、科研和工业等领域的应用。例如，可以用于开发智能辅导系统，帮助学生学习STEM科目；也可以用于构建阿拉伯语代码生成工具，提高软件开发的效率。此外，该基准测试还可以促进阿拉伯语LLM在医疗、金融等领域的应用。

📄 摘要（原文）

Arabic is one of the most widely spoken languages in the world, yet efforts to develop and evaluate Large Language Models (LLMs) for Arabic remain relatively limited. Most existing Arabic benchmarks focus on linguistic, cultural, or religious content, leaving a significant gap in domains like STEM and code which are increasingly relevant for real-world LLM applications. To help bridge this gap, we present 3LM, a suite of three benchmarks designed specifically for Arabic. The first is a set of STEM-related question-answer pairs, naturally sourced from Arabic textbooks and educational worksheets. The second consists of synthetically generated STEM questions, created using the same sources. The third benchmark focuses on code generation, built through a careful translation of two widely used code benchmarks, incorporating a human-in-the-loop process with several rounds of review to ensure high-quality and faithful translations. We release all three benchmarks publicly to support the growth of Arabic LLM research in these essential but underrepresented areas.

3LM: Bridging Arabic, STEM, and Code through Benchmarking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理