Divine LLaMAs: Bias, Stereotypes, Stigmatization, and Emotion Representation of Religion in Large Language Models

📄 arXiv: 2407.06908v1 📥 PDF

作者: Flor Miriam Plaza-del-Arco, Amanda Cercas Curry, Susanna Paoli, Alba Curry, Dirk Hovy

分类: cs.CL, cs.CY

发布日期: 2024-07-09


💡 一句话要点

大型语言模型中宗教的偏见、刻板印象、污名化和情感表征研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 宗教偏见 情感分析 刻板印象 污名化 文化偏见 自然语言处理 情感归因

📋 核心要点

  1. 大型语言模型在情感归因方面存在偏见,尤其是在宗教领域,现有研究较少关注这一问题。
  2. 该研究通过情感归因方法,分析大型语言模型如何表征不同宗教,揭示其中的偏见和刻板印象。
  3. 研究发现,大型语言模型对不同宗教存在差异化对待,某些宗教被刻板印象化或污名化,反映了文化偏见。

📝 摘要(中文)

情感在我们生活中扮演着重要的认知和认识论角色,揭示我们的价值观并指导我们的行为。先前的工作表明,大型语言模型在情感归因方面存在性别偏见。然而,与对价值观影响较小的性别不同,宗教作为一种社会文化系统,为其追随者规定了一套信仰和价值观,从而培养特定的情感。本文通过情感归因,探讨了不同宗教在大型语言模型中的表征。研究发现,美国和欧洲国家的主要宗教呈现出更细致的表征,展现了其信仰的更微妙模型。印度教和佛教等东方宗教则被强烈刻板印象化。犹太教和伊斯兰教则被污名化,模型拒绝率急剧上升。这些现象归因于大型语言模型中的文化偏见以及自然语言处理领域关于宗教文献的稀缺性。在极少数讨论宗教的例子中,往往是在有毒语言的背景下,从而使人们认为这些宗教本质上是有毒的。这项研究强调了解决和纠正这些偏见的紧迫性,并强调了情感在我们生活中的关键作用以及我们的价值观如何影响它们。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLMs)在表征不同宗教时是否存在偏见、刻板印象和污名化现象。现有方法缺乏对LLMs中宗教情感表征的深入分析,并且忽略了宗教作为一种社会文化系统对情感的影响。现有研究表明LLMs存在性别偏见,但宗教偏见的研究较少,且宗教与价值观紧密相关,因此研究LLMs中的宗教偏见至关重要。

核心思路:论文的核心思路是通过情感归因来分析LLMs如何表征不同的宗教。情感是价值观的体现,通过分析LLMs对不同宗教的情感倾向,可以揭示其潜在的偏见和刻板印象。论文假设LLMs会受到训练数据中文化偏见的影响,从而对不同宗教产生差异化的情感反应。

技术框架:论文采用情感归因方法,即通过提示LLMs生成与不同宗教相关的文本,并分析这些文本中表达的情感。具体流程包括:1) 选择需要研究的宗教;2) 设计提示语,引导LLMs生成与这些宗教相关的文本;3) 使用情感分析工具分析生成的文本,提取情感倾向;4) 对比不同宗教的情感倾向,分析是否存在偏见和刻板印象。

关键创新:论文的关键创新在于将情感归因方法应用于分析LLMs中的宗教偏见。以往的研究主要关注LLMs的性别偏见,而忽略了宗教偏见。此外,论文强调了宗教作为一种社会文化系统对情感的影响,并认为分析LLMs中的宗教情感表征可以揭示其潜在的文化偏见。

关键设计:论文的关键设计包括:1) 选择具有代表性的宗教,如美国和欧洲国家的主要宗教、东方宗教以及被认为可能受到污名化的宗教;2) 设计多样化的提示语,以避免提示语本身带来的偏见;3) 使用多种情感分析工具,以确保结果的可靠性;4) 对结果进行统计分析,以量化不同宗教的情感倾向差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,大型语言模型对美国和欧洲国家的主要宗教呈现出更细致的表征,而对印度教和佛教等东方宗教则存在强烈的刻板印象。此外,犹太教和伊斯兰教在模型中被污名化,模型拒绝率显著上升。这些结果表明,大型语言模型中存在文化偏见,需要进一步研究和解决。

🎯 应用场景

该研究的潜在应用领域包括:提高大型语言模型的公平性和公正性,减少其在宗教领域的偏见和刻板印象;开发更具文化敏感性的自然语言处理系统;促进跨文化理解和对话;为宗教研究提供新的视角和工具。未来的影响在于,可以帮助构建更加包容和公正的人工智能系统,避免其在宗教等敏感领域产生负面影响。

📄 摘要(原文)

Emotions play important epistemological and cognitive roles in our lives, revealing our values and guiding our actions. Previous work has shown that LLMs display biases in emotion attribution along gender lines. However, unlike gender, which says little about our values, religion, as a socio-cultural system, prescribes a set of beliefs and values for its followers. Religions, therefore, cultivate certain emotions. Moreover, these rules are explicitly laid out and interpreted by religious leaders. Using emotion attribution, we explore how different religions are represented in LLMs. We find that: Major religions in the US and European countries are represented with more nuance, displaying a more shaded model of their beliefs. Eastern religions like Hinduism and Buddhism are strongly stereotyped. Judaism and Islam are stigmatized -- the models' refusal skyrocket. We ascribe these to cultural bias in LLMs and the scarcity of NLP literature on religion. In the rare instances where religion is discussed, it is often in the context of toxic language, perpetuating the perception of these religions as inherently toxic. This finding underscores the urgent need to address and rectify these biases. Our research underscores the crucial role emotions play in our lives and how our values influence them.