Grounding Arabic LLMs in the Doha Historical Dictionary: Retrieval-Augmented Understanding of Quran and Hadith

📄 arXiv: 2603.23972v1 📥 PDF

作者: Somaya Eltanbouly, Samer Rashwani

分类: cs.CL, cs.IR

发布日期: 2026-03-25

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于多哈历史词典的RAG框架,提升阿拉伯语LLM在古兰经和圣训理解上的准确性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阿拉伯语LLM 检索增强生成 多哈历史词典 古兰经 圣训 历史文本理解 混合检索

📋 核心要点

  1. 现有LLM在处理古兰经和圣训等复杂历史宗教阿拉伯语文本时表现不足,缺乏对历史语境的理解。
  2. 论文提出一种基于多哈历史词典(DHDA)的检索增强生成(RAG)框架,为LLM提供精确的历史信息。
  3. 实验结果表明,该方法显著提高了阿拉伯语原生LLM的准确率,缩小了与Gemini等模型的差距,kappa系数达到0.87。

📝 摘要(中文)

大型语言模型(LLMs)在许多语言任务中取得了显著进展,但它们在理解复杂的历史和宗教阿拉伯语文本(如古兰经和圣训)方面仍然面临挑战。为了解决这一局限性,我们开发了一个基于历时词汇知识的检索增强生成(RAG)框架。与依赖通用语料库的现有RAG系统不同,我们的方法从多哈阿拉伯语历史词典(DHDA)中检索证据,这是一个记录阿拉伯语词汇历史发展的大规模资源。所提出的流程结合了混合检索和基于意图的路由机制,为LLM提供精确的、上下文相关的历史信息。实验表明,这种方法将阿拉伯语原生LLM(包括Fanar和ALLaM)的准确率提高到85%以上,大大缩小了与专有大型模型Gemini的性能差距。Gemini还在我们的实验中充当了LLM-as-a-judge系统,用于自动评估。自动判断通过人工评估进行了验证,显示出高度一致性(kappa = 0.87)。错误分析进一步突出了关键的语言挑战,包括变音符号和复合表达式。这些发现证明了将历时词汇资源整合到检索增强生成框架中以增强阿拉伯语理解的价值,特别是对于历史和宗教文本。代码和资源可在https://github.com/somayaeltanbouly/Doha-Dictionary-RAG公开获取。

🔬 方法详解

问题定义:现有的阿拉伯语LLM在理解古兰经和圣训等历史文本时,由于缺乏对古代词汇和语言用法的理解,导致准确率较低。通用语料库无法提供足够的历史语境信息,使得LLM难以准确把握文本的含义。

核心思路:利用多哈历史词典(DHDA)作为外部知识源,通过检索增强生成(RAG)框架,为LLM提供相关的历史词汇信息。DHDA包含了丰富的阿拉伯语词汇的历史演变信息,可以帮助LLM更好地理解古代文本的含义。这样设计的目的是让LLM在生成答案时,能够参考历史语境,提高准确性。

技术框架:该RAG框架包含以下主要模块:1) 查询编码器:将用户的问题编码成向量表示。2) 混合检索器:结合关键词检索和语义检索,从DHDA中检索相关的历史词汇信息。3) 意图路由:根据用户问题的意图,选择合适的检索策略。4) LLM生成器:利用检索到的历史信息,生成最终的答案。整个流程旨在为LLM提供更精确、上下文相关的历史信息,从而提高其理解和生成能力。

关键创新:该方法的核心创新在于将历时词汇知识融入到RAG框架中。与传统的RAG系统使用通用语料库不同,该方法利用DHDA这一专门的历史词典,为LLM提供更精确的历史语境信息。这种方法能够更有效地解决LLM在理解历史文本时遇到的问题。

关键设计:混合检索器结合了BM25关键词检索和基于嵌入的语义检索,以提高检索的准确率和召回率。意图路由模块使用分类器来判断用户问题的意图,并根据意图选择不同的检索策略。实验中使用了Fanar和ALLaM等阿拉伯语原生LLM,并使用Gemini作为LLM-as-a-judge系统进行自动评估。人工评估也用于验证自动评估的结果,确保评估的可靠性。

📊 实验亮点

实验结果表明,基于DHDA的RAG框架显著提高了阿拉伯语原生LLM的准确率。例如,Fanar和ALLaM的准确率提高到85%以上,大大缩小了与Gemini的性能差距。人工评估与自动评估结果高度一致(kappa = 0.87),验证了评估方法的可靠性。错误分析揭示了变音符号和复合表达式等关键语言挑战。

🎯 应用场景

该研究成果可应用于提升阿拉伯语LLM在历史、宗教、法律等领域的应用效果,例如古兰经注释、圣训解读、古代文献翻译等。通过提供更准确的历史语境信息,可以帮助LLM更好地理解和生成相关领域的文本,具有重要的学术价值和实际应用前景。

📄 摘要(原文)

Large language models (LLMs) have achieved remarkable progress in many language tasks, yet they continue to struggle with complex historical and religious Arabic texts such as the Quran and Hadith. To address this limitation, we develop a retrieval-augmented generation (RAG) framework grounded in diachronic lexicographic knowledge. Unlike prior RAG systems that rely on general-purpose corpora, our approach retrieves evidence from the Doha Historical Dictionary of Arabic (DHDA), a large-scale resource documenting the historical development of Arabic vocabulary. The proposed pipeline combines hybrid retrieval with an intent-based routing mechanism to provide LLMs with precise, contextually relevant historical information. Our experiments show that this approach improves the accuracy of Arabic-native LLMs, including Fanar and ALLaM, to over 85\%, substantially reducing the performance gap with Gemini, a proprietary large-scale model. Gemini also serves as an LLM-as-a-judge system for automatic evaluation in our experiments. The automated judgments were verified through human evaluation, demonstrating high agreement (kappa = 0.87). An error analysis further highlights key linguistic challenges, including diacritics and compound expressions. These findings demonstrate the value of integrating diachronic lexicographic resources into retrieval-augmented generation frameworks to enhance Arabic language understanding, particularly for historical and religious texts. The code and resources are publicly available at: https://github.com/somayaeltanbouly/Doha-Dictionary-RAG.