Clustering Discourses: Racial Biases in Short Stories about Women Generated by Large Language Models

📄 arXiv: 2509.02834v1 📥 PDF

作者: Gustavo Bonil, João Gondim, Marina dos Santos, Simone Hashiguti, Helena Maia, Nadia Silva, Helio Pedrini, Sandra Avila

分类: cs.CL, cs.AI

发布日期: 2025-09-02

备注: 12 pages, 3 figures. Accepted at STIL @ BRACIS 2025


💡 一句话要点

利用LLaMA 3.2-3B生成短篇小说,揭示其中关于黑人女性和白人女性的种族偏见。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 种族偏见 文本聚类 语篇分析 LLaMA 社会公平 自然语言处理

📋 核心要点

  1. 大型语言模型在生成文本时可能无意中强化社会偏见,尤其是在涉及种族和性别等敏感话题时。
  2. 该研究通过聚类分析识别LLaMA 3.2-3B生成的短篇小说中关于黑人女性和白人女性的常见叙事模式。
  3. 研究结合机器学习和人工语篇分析,揭示了模型在看似中立的文本中如何体现殖民地结构的女性身体框架。

📝 摘要(中文)

本研究调查了大型语言模型,特别是LLaMA 3.2-3B,在用葡萄牙语生成的短篇小说中如何构建关于黑人女性和白人女性的叙事。从2100篇文本中,我们应用计算方法对语义相似的故事进行分组,从而进行定性分析的选择。出现了三种主要的论述表征:社会克服、祖先神话化和主观自我实现。分析揭示了语法连贯、看似中立的文本如何将女性身体的结晶化的、殖民地结构的框架具体化,从而强化了历史不平等。该研究提出了一种综合方法,将机器学习技术与定性的、人工的语篇分析相结合。

🔬 方法详解

问题定义:本研究旨在揭示大型语言模型在生成关于不同种族女性的叙事时,是否以及如何在文本中体现和强化种族偏见。现有方法通常难以捕捉文本中细微的、潜在的偏见,尤其是在长文本或复杂叙事中。现有方法缺乏对语言模型生成文本中隐含的社会文化框架的深入理解。

核心思路:核心思路是将计算方法(聚类分析)与定性分析(人工语篇分析)相结合。首先,利用聚类分析将语义相似的故事分组,从而减少需要人工分析的文本数量。然后,对每个聚类中的代表性文本进行深入的语篇分析,以识别其中存在的种族偏见和刻板印象。这种结合方法能够更有效地发现和理解语言模型中的偏见。

技术框架:整体框架包括以下几个阶段:1) 数据生成:使用LLaMA 3.2-3B生成2100篇关于女性的短篇小说(葡萄牙语)。2) 文本聚类:使用计算方法(具体方法未知)对生成的文本进行聚类,将语义相似的故事归为一组。3) 文本选择:从每个聚类中选择具有代表性的文本进行人工分析。4) 语篇分析:人工分析选定的文本,识别其中关于黑人女性和白人女性的叙事模式和潜在的种族偏见。

关键创新:关键创新在于将机器学习技术与定性的语篇分析相结合,以更有效地识别和理解大型语言模型中的偏见。传统方法通常依赖于人工分析或简单的统计指标,难以捕捉文本中细微的、潜在的偏见。该研究提出的方法能够更全面地评估语言模型在生成文本时可能存在的社会影响。

关键设计:论文中未提供聚类算法的具体细节,例如使用的特征向量、距离度量和聚类算法类型。也未提供人工语篇分析的具体方法和标准。这些细节的缺失使得难以完全理解研究的完整性和可重复性。关于LLaMA 3.2-3B的具体prompt设计也未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究揭示了LLaMA 3.2-3B在生成关于黑人女性和白人女性的短篇小说时,存在三种主要的论述表征:社会克服、祖先神话化和主观自我实现。这些叙事模式体现了殖民地结构的女性身体框架,强化了历史不平等。虽然论文没有提供具体的性能数据或量化指标,但其定性分析揭示了大型语言模型中潜在的种族偏见,具有重要的社会意义。

🎯 应用场景

该研究的成果可应用于评估和改进大型语言模型,以减少其在生成文本时可能存在的社会偏见。此外,该方法可以推广到其他领域,例如新闻报道、社交媒体内容分析等,以识别和消除文本中的偏见和歧视。该研究有助于提高人工智能系统的公平性和社会责任感,促进更包容和公正的社会。

📄 摘要(原文)

This study investigates how large language models, in particular LLaMA 3.2-3B, construct narratives about Black and white women in short stories generated in Portuguese. From 2100 texts, we applied computational methods to group semantically similar stories, allowing a selection for qualitative analysis. Three main discursive representations emerge: social overcoming, ancestral mythification and subjective self-realization. The analysis uncovers how grammatically coherent, seemingly neutral texts materialize a crystallized, colonially structured framing of the female body, reinforcing historical inequalities. The study proposes an integrated approach, that combines machine learning techniques with qualitative, manual discourse analysis.