Is Lying Only Sinful in Islam? Exploring Religious Bias in Multilingual Large Language Models Across Major Religions

📄 arXiv: 2512.03943v1 📥 PDF

作者: Kazi Abrab Hossain, Jannatul Somiya Mahmud, Maria Hossain Tuli, Anik Mitra, S. M. Taiabul Haque, Farig Y. Sadeque

分类: cs.CL, cs.HC

发布日期: 2025-12-03

备注: 18 pages, 7 figures


💡 一句话要点

BRAND数据集揭示多语言大模型在宗教理解上对伊斯兰教的偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言模型 宗教偏见 数据集构建 自然语言处理 人机交互

📋 核心要点

  1. 现有大型语言模型在处理宗教等敏感话题时,容易产生误解和偏见,尤其是在多语言环境下。
  2. 论文提出BRAND数据集,包含佛教、基督教、印度教和伊斯兰教相关数据,旨在评估和解决多语言模型中的宗教偏见。
  3. 实验结果表明,模型在不同语言间表现存在差异,且普遍存在对伊斯兰教的偏见,即使在宗教中立问题上也是如此。

📝 摘要(中文)

大型语言模型在偏见检测和分类方面取得了进展,但宗教等敏感主题仍然具有挑战性,细微的错误可能导致严重的误解。多语言模型经常错误地表达宗教,并且难以在宗教语境中保持准确。为了解决这个问题,我们引入了BRAND:双语宗教可解释规范数据集,该数据集侧重于南亚的四种主要宗教:佛教、基督教、印度教和伊斯兰教,包含超过2400个条目。我们使用英语和孟加拉语的三种不同类型的提示。结果表明,模型在英语中的表现优于孟加拉语,并且始终表现出对伊斯兰教的偏见,即使在回答宗教中立的问题时也是如此。这些发现突出了多语言模型在用不同语言提出类似问题时存在的持续偏见。我们进一步将我们的发现与人机交互中关于宗教和灵性的更广泛问题联系起来。

🔬 方法详解

问题定义:论文旨在解决多语言大型语言模型在处理宗教相关问题时存在的偏见问题。现有方法难以保证模型在不同语言和宗教背景下的准确性和公正性,尤其是在涉及敏感的宗教话题时,容易产生误解和负面影响。现有方法缺乏针对性的数据集和评估指标,难以有效检测和缓解模型中的宗教偏见。

核心思路:论文的核心思路是构建一个专门的双语宗教数据集(BRAND),用于评估和揭示多语言模型在宗教理解上的偏见。通过设计不同类型的提示,并使用英语和孟加拉语两种语言进行测试,可以更全面地了解模型在不同语言和宗教背景下的表现。通过分析模型的输出,可以识别出模型中存在的偏见,并为后续的改进提供指导。

技术框架:论文的技术框架主要包括以下几个部分:1) 构建BRAND数据集,包含佛教、基督教、印度教和伊斯兰教的相关数据,并使用英语和孟加拉语两种语言进行标注。2) 设计不同类型的提示,包括宗教特定问题、宗教中立问题等,用于测试模型的表现。3) 使用多语言大型语言模型(具体模型未明确说明)进行实验,并分析模型的输出,评估模型在不同语言和宗教背景下的准确性和公正性。4) 分析实验结果,识别模型中存在的偏见,并提出改进建议。

关键创新:论文的关键创新在于构建了BRAND数据集,这是一个专门用于评估多语言模型在宗教理解上的偏见的数据集。该数据集包含多种宗教和语言,可以更全面地了解模型在不同背景下的表现。此外,论文还设计了不同类型的提示,可以更有效地检测模型中存在的偏见。与现有方法相比,BRAND数据集更具针对性和实用性,可以为后续的研究提供有力的支持。

关键设计:关于BRAND数据集的具体构建细节(例如数据来源、标注方法、数据量分布等)论文中未详细说明。关于实验中使用的多语言大型语言模型的具体型号和参数设置也未明确说明。关于提示的具体设计细节(例如提示的长度、结构、关键词等)也未详细说明。关于偏见的评估指标和方法也未明确说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,多语言模型在英语中的表现优于孟加拉语,并且普遍存在对伊斯兰教的偏见,即使在回答宗教中立的问题时也是如此。这表明多语言模型在处理宗教相关问题时,存在明显的语言和宗教偏见。具体的性能数据和提升幅度未在摘要中给出,需要查阅论文全文。

🎯 应用场景

该研究成果可应用于开发更可靠、公正的多语言AI系统,尤其是在涉及宗教、文化等敏感领域的应用。例如,可以用于改进宗教信息检索、跨文化交流、智能客服等系统,避免因模型偏见而产生误解或冒犯。未来的研究可以进一步探索如何利用BRAND数据集来训练更公平、更准确的多语言模型。

📄 摘要(原文)

While recent developments in large language models have improved bias detection and classification, sensitive subjects like religion still present challenges because even minor errors can result in severe misunderstandings. In particular, multilingual models often misrepresent religions and have difficulties being accurate in religious contexts. To address this, we introduce BRAND: Bilingual Religious Accountable Norm Dataset, which focuses on the four main religions of South Asia: Buddhism, Christianity, Hinduism, and Islam, containing over 2,400 entries, and we used three different types of prompts in both English and Bengali. Our results indicate that models perform better in English than in Bengali and consistently display bias toward Islam, even when answering religion-neutral questions. These findings highlight persistent bias in multilingual models when similar questions are asked in different languages. We further connect our findings to the broader issues in HCI regarding religion and spirituality.