SectEval: Evaluating the Latent Sectarian Preferences of Large Language Models

📄 arXiv: 2603.12768v1 📥 PDF

作者: Aditya Maheshwari, Amit Gajkeshwar, Kaushal Sharma, Vivek Patel

分类: cs.CL

发布日期: 2026-03-13

备注: 14 pages; 3 figures

🔗 代码/项目: GITHUB


💡 一句话要点

SectEval:评估大型语言模型中潜在的宗派偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 宗派偏见 评估方法 多语言 宗教知识

📋 核心要点

  1. 大型语言模型在宗教知识传播中扮演重要角色,但其潜在的宗派偏见可能导致不公平对待。
  2. 论文提出SectEval测试,通过多语言和多地域的提问,评估LLM在逊尼派和什叶派问题上的偏向性。
  3. 实验结果揭示了LLM在不同语言和地域环境下,对逊尼派和什叶派的偏向性存在显著差异。

📝 摘要(中文)

随着大型语言模型(LLMs)成为宗教知识的流行来源,了解它们是否公平对待不同的群体至关重要。本研究首次衡量了LLMs如何处理伊斯兰教两大宗派:逊尼派和什叶派之间的差异。我们提出了一个名为SectEval的测试,提供英语和印地语版本,包含88个问题,用于检查15个顶级LLM模型(包括专有模型和开源模型)的偏见。结果表明,语言是造成重大不一致性的关键因素。在英语中,许多强大的模型(如DeepSeek-v3和GPT-4o)通常偏向什叶派答案。然而,当用印地语提出完全相同的问题时,这些模型转而偏向逊尼派答案。这意味着用户仅通过更改语言就可能获得完全不同的宗教建议。我们还研究了模型对位置的反应。高级模型Claude-3.5会根据用户的国家/地区更改答案,例如向来自伊朗的用户提供什叶派答案,向来自沙特阿拉伯的用户提供逊尼派答案。相比之下,较小的模型(尤其是在印地语中)忽略了用户的位置,并坚持逊尼派的观点。这些发现表明,人工智能并非中立;它的宗教“真理”会根据你所说的语言和你声称来自的国家/地区而变化。数据集可在https://github.com/secteval/SectEval/获取。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在处理涉及伊斯兰教逊尼派和什叶派的问题时,可能存在的宗派偏见问题。现有方法缺乏对LLM宗派倾向的系统性评估,无法保证其在宗教知识传播中的公正性。这种偏见可能导致用户获得不准确或带有倾向性的宗教信息,从而加剧社会矛盾。

核心思路:论文的核心思路是通过构建一个包含多语言(英语和印地语)和多地域因素的测试集SectEval,来系统性地评估LLM在逊尼派和什叶派问题上的偏向性。通过分析LLM在不同语言和地域环境下的回答,揭示其潜在的宗派倾向。这种方法能够更全面地了解LLM在处理宗教问题时的公正性。

技术框架:SectEval测试框架主要包含以下几个阶段:1)构建包含88个问题的测试集,涵盖逊尼派和什叶派相关的宗教知识;2)将测试集翻译成英语和印地语;3)针对不同的LLM模型,使用英语和印地语提问;4)分析LLM的回答,评估其对逊尼派和什叶派的偏向性;5)考虑用户所在国家/地区,分析LLM是否会根据地域调整答案。

关键创新:论文的关键创新在于首次提出了针对LLM宗派偏见的系统性评估方法。SectEval测试集的设计考虑了多语言和多地域因素,能够更全面地揭示LLM在处理宗教问题时的潜在偏向。此外,论文还发现LLM的宗派倾向会受到语言和地域的影响,这为后续研究提供了重要的启示。

关键设计:SectEval测试集包含88个问题,这些问题旨在区分逊尼派和什叶派的观点。问题涵盖了宗教仪式、历史事件、人物评价等多个方面。为了评估LLM对地域的敏感性,实验中模拟了来自不同国家/地区的用户,并观察LLM的回答是否会发生变化。论文没有明确提及损失函数或网络结构等技术细节,因为其重点在于评估而非模型训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,许多强大的LLM模型(如DeepSeek-v3和GPT-4o)在英语中偏向什叶派答案,但在印地语中则偏向逊尼派答案。高级模型Claude-3.5会根据用户的国家/地区更改答案,而较小的模型则倾向于坚持逊尼派的观点。这些发现揭示了LLM在不同语言和地域环境下,对逊尼派和什叶派的偏向性存在显著差异。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型在宗教知识传播中的公正性。通过SectEval测试,可以识别LLM中存在的宗派偏见,并采取相应的措施进行纠正。这有助于确保LLM在宗教领域提供客观、准确的信息,避免加剧社会矛盾。此外,该研究也为其他领域的偏见评估提供了借鉴,例如性别偏见、种族偏见等。

📄 摘要(原文)

As Large Language Models (LLMs) becomes a popular source for religious knowledge, it is important to know if it treats different groups fairly. This study is the first to measure how LLMs handle the differences between the two main sects of Islam: Sunni and Shia. We present a test called SectEval, available in both English and Hindi, consisting of 88 questions, to check the bias-ness of 15 top LLM models, both proprietary and open-weights. Our results show a major inconsistency based on language. In English, many powerful models DeepSeek-v3 and GPT-4o often favored Shia answers. However, when asked the exact same questions in Hindi, these models switched to favoring Sunni answers. This means a user could get completely different religious advice just by changing languages. We also looked at how models react to location. Advanced models Claude-3.5 changed their answers to match the user's country-giving Shia answers to a user from Iran and Sunni answers to a user from Saudi Arabia. In contrast, smaller models (especially in Hindi) ignored the user's location and stuck to a Sunni viewpoint. These findings show that AI is not neutral; its religious ``truth'' changes depending on the language you speak and the country you claim to be from. The data set is available at https://github.com/secteval/SectEval/