ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation

📄 arXiv: 2407.19835v2 📥 PDF

作者: Mohammed Khalil, Mohammed Sabry

分类: cs.CL, cs.AI

发布日期: 2024-07-29 (更新: 2025-09-04)

备注: ArabicNLP 2025

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

ATHAR:一个高质量、多样化的古阿拉伯语到英语翻译数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 古阿拉伯语翻译 数据集构建 机器翻译 大型语言模型 自然语言处理

📋 核心要点

  1. 现有古阿拉伯语翻译数据集稀缺,主题范围有限,阻碍了高质量翻译系统的发展。
  2. 论文提出了ATHAR数据集,包含66,000个高质量古阿拉伯语到英语的翻译样本,覆盖科学、文化、哲学等领域。
  3. 实验表明,当前最先进的LLM可以通过微调或将ATHAR数据集纳入预训练流程来提升性能。

📝 摘要(中文)

古阿拉伯语代表着阿拉伯文化、哲学和科学文献的黄金时代。将这些文献翻译出来,以丰富跨社区的知识传播,已成为广泛共识。大型语言模型(LLM)和翻译系统的出现为实现这一目标提供了有希望的工具。然而,我们发现古阿拉伯语翻译数据集非常稀缺,而且范围和主题往往有限,阻碍了高质量翻译系统的开发。为此,我们提出了ATHAR数据集,它包含66,000个高质量的古阿拉伯语到英语的翻译样本,涵盖了科学、文化和哲学等广泛的主题。此外,我们评估了当前最先进的LLM在各种设置下的性能,得出结论,当前系统需要这样的数据集。我们的研究结果表明,模型可以通过微调或将此数据集纳入其预训练流程中而受益。该数据集已在HuggingFace Data Hub上公开发布:https://huggingface.co/datasets/mohamed-khalil/ATHAR。

🔬 方法详解

问题定义:论文旨在解决古阿拉伯语到英语翻译数据集匮乏的问题。现有的数据集规模小,主题覆盖面窄,无法满足训练高质量翻译系统的需求,导致现有LLM在处理古阿拉伯语翻译任务时表现不佳。

核心思路:论文的核心思路是构建一个大规模、高质量、多样化的古阿拉伯语到英语翻译数据集,以此来提升LLM在古阿拉伯语翻译任务上的性能。通过提供更丰富的训练数据,使模型能够更好地理解和翻译古阿拉伯语。

技术框架:该论文主要贡献在于数据集的构建,没有涉及复杂的模型架构。数据集构建流程未知,但强调了数据的高质量和多样性,涵盖了科学、文化、哲学等多个领域。数据集以标准格式存储,方便研究人员使用。

关键创新:该论文的关键创新在于构建了一个新的、大规模的古阿拉伯语到英语翻译数据集。与现有数据集相比,ATHAR数据集规模更大,主题更广泛,质量更高,能够更好地满足训练高质量翻译系统的需求。

关键设计:论文未提供关于数据集构建过程的具体技术细节,例如数据来源、清洗方法、质量控制标准等。这些细节对于数据集的复现和进一步研究至关重要,但目前未知。

📊 实验亮点

论文评估了当前最先进的LLM在ATHAR数据集上的性能,结果表明,这些模型在古阿拉伯语翻译任务上仍有很大的提升空间。研究结果强调了ATHAR数据集的重要性,并表明模型可以通过微调或将该数据集纳入预训练流程中而受益。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可广泛应用于古阿拉伯语文献的翻译和研究领域,促进阿拉伯文化遗产的传播和理解。通过提升古阿拉伯语到英语的翻译质量,可以帮助更多人了解阿拉伯文明的辉煌成就,促进跨文化交流和知识共享。未来,该数据集可以用于训练更强大的古阿拉伯语翻译模型,应用于学术研究、文化交流、教育等多个领域。

📄 摘要(原文)

Classical Arabic represents a significant era that encompasses the golden age of Arab culture, philosophy, and scientific literature. With a broad consensus on the importance of translating these literatures to enrich knowledge dissemination across communities, the advent of large language models (LLMs) and translation systems offers promising tools to facilitate this goal. However, we have identified a scarcity of translation datasets in Classical Arabic, which are often limited in scope and topics, hindering the development of high-quality translation systems. In response, we present the ATHAR dataset, which comprises 66,000 high-quality classical Arabic to English translation samples that cover a wide array of topics including science, culture, and philosophy. Furthermore, we assess the performance of current state-of-the-art LLMs under various settings, concluding that there is a need for such datasets in current systems. Our findings highlight how models can benefit from fine-tuning or incorporating this dataset into their pretraining pipelines. The dataset is publicly available on the HuggingFace Data Hub: https://huggingface.co/datasets/mohamed-khalil/ATHAR.