A Taxonomy of Stereotype Content in Large Language Models

作者: Gandalf Nicolas, Aylin Caliskan

分类: cs.CY, cs.AI, cs.CL, cs.LG

发布日期: 2024-07-31

💡 一句话要点

提出大语言模型刻板印象内容分类法以解决偏见问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 刻板印象 大型语言模型 偏见识别 多维分类法 AI审计 社会类别

📋 核心要点

现有大型语言模型在刻板印象表现上存在偏见，且缺乏系统的分类方法来理解这些偏见的多维性。
本研究提出了一种新的刻板印象内容分类法，通过对多种LLMs进行提示，识别出14个刻板印象维度。
研究结果表明，LLMs中的刻板印象相较于人类更为积极，且具有显著的类别和维度变异性，支持了多维分类法的有效性。

📝 摘要（中文）

本研究引入了当代大型语言模型（LLMs）刻板印象内容的分类法。我们对ChatGPT 3.5、Llama 3和Mixtral 8x7B这三种强大的LLMs进行了提示，探讨与87个社会类别（如性别、种族、职业）相关的特征。研究识别出14个刻板印象维度（如道德、能力、健康、信仰、情感），占据了约90%的LLM刻板印象关联。LLMs中的刻板印象相较于人类更为积极，但在类别和维度上存在显著的变异性。最后，该分类法预测了LLMs对社会类别的内部评估，支持了多维分类法在刻板印象表征中的相关性。我们的发现表明，高维人类刻板印象在LLMs中得到了反映，必须在AI审计和去偏见过程中加以考虑，以减少依赖低维偏见视角所带来的未识别危害。

🔬 方法详解

问题定义：本研究旨在解决大型语言模型中刻板印象的分类与理解问题。现有方法缺乏对刻板印象多维特征的系统性分析，导致偏见识别的不足。

核心思路：论文提出了一种基于多维分类法的刻板印象内容分类方法，通过对不同LLMs的提示，系统识别与社会类别相关的刻板印象特征。

技术框架：整体架构包括数据收集、模型提示、刻板印象维度识别和结果分析四个主要模块。首先收集87个社会类别的数据，然后对三种LLMs进行提示以获取刻板印象特征，最后分析和分类这些特征。

关键创新：最重要的技术创新在于识别出14个刻板印象维度，并且发现LLMs中刻板印象的表现与人类存在显著差异，尤其是在积极性方面。

关键设计：在实验中，采用了多种提示策略以确保对不同社会类别的全面覆盖，同时在分析阶段使用了统计方法来验证刻板印象维度的显著性。

📊 实验亮点

实验结果显示，LLMs中的刻板印象表现出更积极的倾向，相较于人类的刻板印象，且14个识别的维度覆盖了约90%的关联性。这一发现为理解LLMs的社会影响提供了新的视角。

🎯 应用场景

该研究的潜在应用领域包括AI审计、去偏见算法的开发以及社会科学研究。通过理解和分类LLMs中的刻板印象，可以为构建更公平和透明的AI系统提供理论基础，减少潜在的社会危害。

📄 摘要（原文）

This study introduces a taxonomy of stereotype content in contemporary large language models (LLMs). We prompt ChatGPT 3.5, Llama 3, and Mixtral 8x7B, three powerful and widely used LLMs, for the characteristics associated with 87 social categories (e.g., gender, race, occupations). We identify 14 stereotype dimensions (e.g., Morality, Ability, Health, Beliefs, Emotions), accounting for ~90% of LLM stereotype associations. Warmth and Competence facets were the most frequent content, but all other dimensions were significantly prevalent. Stereotypes were more positive in LLMs (vs. humans), but there was significant variability across categories and dimensions. Finally, the taxonomy predicted the LLMs' internal evaluations of social categories (e.g., how positively/negatively the categories were represented), supporting the relevance of a multidimensional taxonomy for characterizing LLM stereotypes. Our findings suggest that high-dimensional human stereotypes are reflected in LLMs and must be considered in AI auditing and debiasing to minimize unidentified harms from reliance in low-dimensional views of bias in LLMs.

A Taxonomy of Stereotype Content in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理