IslamicMMLU: A Benchmark for Evaluating LLMs on Islamic Knowledge
作者: Ali Abdelaal, Mohammed Nader Al Haffar, Mahmoud Fawzi, Walid Magdy
分类: cs.CL
发布日期: 2026-04-06
💡 一句话要点
IslamicMMLU:构建伊斯兰知识评估基准,评测大型语言模型性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 伊斯兰知识 基准测试 评估 偏见检测
📋 核心要点
- 现有大型语言模型缺乏在伊斯兰核心学科知识上的全面评估基准。
- IslamicMMLU基准包含古兰经、圣训和教法三个领域的多选题,考察LLM的伊斯兰知识理解。
- 实验评估了26个LLM,揭示了模型在不同伊斯兰知识领域和学派偏好上的性能差异。
📝 摘要(中文)
本文提出了IslamicMMLU,一个用于评估大型语言模型在伊斯兰知识方面表现的综合基准。该基准包含10013道多项选择题,涵盖古兰经(2013题)、圣训(4000题)和教法(4000题)三个领域。每个领域包含多种题型,旨在考察LLM处理伊斯兰知识不同方面的能力。利用该基准创建了IslamicMMLU公共排行榜,用于评估LLM。初步评估了26个LLM,它们在三个领域的平均准确率在39.8%到93.8%之间(Gemini 3 Flash)。古兰经领域的准确率跨度最大(32.4%到99.3%),而教法领域包含一个新的麦兹海布(伊斯兰教法学派)偏见检测任务,揭示了不同模型对不同学派的偏好差异。专门针对阿拉伯语的模型表现不一,但都逊色于前沿模型。评估代码和排行榜已公开。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)越来越多地被用于查询伊斯兰知识,但缺乏一个全面的基准来评估它们在伊斯兰核心学科上的表现。现有的通用基准测试无法充分评估LLM对伊斯兰教义、历史和法律的理解,也无法检测模型可能存在的偏见。
核心思路:本文的核心思路是构建一个专门针对伊斯兰知识的基准测试集,即IslamicMMLU,它包含多个领域的选择题,能够全面评估LLM在古兰经、圣训和教法等方面的知识掌握程度。通过分析模型在不同领域和题型上的表现,可以深入了解模型的优势和不足,并检测其可能存在的偏见。
技术框架:IslamicMMLU基准测试集包含三个主要部分:古兰经(Quran)、圣训(Hadith)和教法(Fiqh)。每个部分都包含多个类型的选择题,旨在考察LLM在不同方面的能力。教法部分还包含一个新颖的麦兹海布(伊斯兰教法学派)偏见检测任务。研究人员使用该基准测试集评估了26个LLM,并将结果发布在公开的排行榜上。
关键创新:IslamicMMLU是首个专门针对伊斯兰知识的综合性基准测试集。它不仅覆盖了伊斯兰教的核心领域,还引入了麦兹海布偏见检测任务,能够更全面地评估LLM的性能和潜在问题。与现有的通用基准测试相比,IslamicMMLU能够更准确地反映LLM在伊斯兰知识方面的能力。
关键设计:IslamicMMLU基准测试集包含10013道多项选择题,其中古兰经部分包含2013道题,圣训和教法部分各包含4000道题。题目的设计涵盖了伊斯兰教义、历史、法律等多个方面。麦兹海布偏见检测任务旨在评估LLM对不同伊斯兰教法学派的偏好程度。评估指标主要为准确率,用于衡量LLM在每个领域和题型上的表现。
🖼️ 关键图片
📊 实验亮点
实验结果显示,26个LLM在IslamicMMLU上的平均准确率在39.8%到93.8%之间,Gemini 3 Flash表现最佳。古兰经领域的准确率跨度最大(32.4%到99.3%),表明模型在该领域的表现差异显著。教法领域的麦兹海布偏见检测任务揭示了不同模型对不同学派的偏好差异。阿拉伯语专用模型表现不一,但整体逊色于前沿模型。
🎯 应用场景
IslamicMMLU可用于评估和改进大型语言模型在伊斯兰知识领域的表现,帮助用户选择更可靠的伊斯兰知识问答系统。该基准还可用于检测和减轻模型中存在的偏见,促进更公平和准确的伊斯兰知识传播。未来,该基准可以扩展到更多伊斯兰知识领域,并用于开发更智能的伊斯兰知识助手。
📄 摘要(原文)
Large language models are increasingly consulted for Islamic knowledge, yet no comprehensive benchmark evaluates their performance across core Islamic disciplines. We introduce IslamicMMLU, a benchmark of 10,013 multiple-choice questions spanning three tracks: Quran (2,013 questions), Hadith (4,000 questions), and Fiqh (jurisprudence, 4,000 questions). Each track is formed of multiple types of questions to examine LLMs capabilities handling different aspects of Islamic knowledge. The benchmark is used to create the IslamicMMLU public leaderboard for evaluating LLMs, and we initially evaluate 26 LLMs, where their averaged accuracy across the three tracks varied between 39.8% to 93.8% (by Gemini 3 Flash). The Quran track shows the widest span (99.3% to 32.4%), while the Fiqh track includes a novel madhab (Islamic school of jurisprudence) bias detection task revealing variable school-of-thought preferences across models. Arabic-specific models show mixed results, but they all underperform compared to frontier models. The evaluation code and leaderboard are made publicly available.