A Tale of Two Identities: An Ethical Audit of Human and AI-Crafted Personas
作者: Pranav Narayanan Venkit, Jiayi Li, Yingfan Zhou, Sarah Rajtmajer, Shomir Wilson
分类: cs.CL, cs.AI, cs.CY
发布日期: 2025-05-07
💡 一句话要点
通过伦理审计揭示LLM生成人物角色中的种族身份偏见与刻板印象
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 伦理审计 种族偏见 算法异化 人物角色生成
📋 核心要点
- 现有方法在数据受限领域使用LLM生成人物角色时,未能充分评估其对少数族裔身份的潜在偏见和刻板印象。
- 该研究通过伦理审计,分析LLM生成人物角色中种族身份的表征性伤害,揭示算法异化现象。
- 实验结果表明,LLM倾向于过度强调种族标记,产生文化编码语言,并构建叙事简化的角色,导致多种社会技术危害。
📝 摘要(中文)
随着大型语言模型(LLMs)越来越多地用于生成合成人物角色,尤其是在健康、隐私和人机交互等数据受限领域,理解这些叙事如何呈现身份,特别是少数族裔的身份,变得至关重要。本文通过表征性伤害的视角,对3个LLM(GPT4o、Gemini 1.5 Pro、Deepseek 2.5)生成的合成人物角色进行审计,特别关注种族身份。采用混合方法,结合细读、词汇分析和参数化创造力框架,将1512个LLM生成的人物角色与人类创作的响应进行比较。研究结果表明,LLM不成比例地突出种族标记,过度生产文化编码语言,并构建语法上精细但叙事上简化的角色。这些模式导致了一系列社会技术危害,包括刻板印象、异国情调、抹除和仁慈偏见,这些危害常常被表面上积极的叙述所掩盖。我们将这种现象形式化为算法异化,即少数族裔身份被过度呈现,但真实性降低。基于这些发现,我们为合成身份生成提供叙事感知评估指标和以社区为中心的验证协议的设计建议。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在生成合成人物角色时,对少数族裔身份的潜在偏见和刻板印象问题。现有方法缺乏对这些合成身份的伦理审计,特别是关于种族表征性伤害的评估,导致刻板印象、异国情调、抹除和仁慈偏见等社会技术危害。
核心思路:论文的核心思路是通过对LLM生成的人物角色进行伦理审计,揭示其在种族身份表征方面的偏差。通过比较LLM生成的人物角色与人类创作的响应,识别LLM在种族标记、文化编码语言和叙事结构方面的差异,从而量化和理解算法异化现象。
技术框架:该研究采用混合方法,包括:1) 人物角色生成:使用GPT4o、Gemini 1.5 Pro和Deepseek 2.5三个LLM生成1512个人物角色。2) 细读分析:对生成的人物角色进行深入阅读,识别潜在的偏见和刻板印象。3) 词汇分析:使用词汇工具分析人物角色中的种族标记和文化编码语言的频率和分布。4) 参数化创造力框架:评估人物角色的叙事复杂性和创造性。5) 对比分析:将LLM生成的人物角色与人类创作的响应进行比较,量化差异。
关键创新:该研究的关键创新在于:1) 伦理审计框架:提出了一个针对LLM生成人物角色的伦理审计框架,关注种族表征性伤害。2) 算法异化概念:形式化了算法异化现象,即少数族裔身份被过度呈现但真实性降低。3) 混合方法:结合细读、词汇分析和参数化创造力框架,全面评估LLM生成人物角色的种族表征。
关键设计:研究中,人物角色的生成使用了特定的提示工程技术,以确保生成的人物角色具有多样化的种族背景。词汇分析使用了预定义的种族标记和文化编码语言列表。参数化创造力框架使用了现有的叙事复杂性评估指标。对比分析使用了统计检验来量化LLM生成的人物角色与人类创作的响应之间的差异。
🖼️ 关键图片
📊 实验亮点
研究发现,LLM生成的人物角色不成比例地突出种族标记,过度生产文化编码语言,并构建叙事简化的角色。例如,LLM生成的人物角色中,与种族相关的词汇出现频率显著高于人类创作的响应。此外,LLM生成的人物角色在叙事复杂性和创造性方面明显低于人类创作的响应,表明LLM在种族身份表征方面存在明显的偏差。
🎯 应用场景
该研究成果可应用于人机交互、健康、隐私等领域,帮助开发者设计更公平、更具包容性的AI系统。通过改进LLM生成人物角色的方式,可以减少对少数族裔的刻板印象和偏见,提升用户体验,并促进社会公平。未来的研究可以进一步探索其他身份维度(如性别、性取向、宗教等)的算法异化现象。
📄 摘要(原文)
As LLMs (large language models) are increasingly used to generate synthetic personas particularly in data-limited domains such as health, privacy, and HCI, it becomes necessary to understand how these narratives represent identity, especially that of minority communities. In this paper, we audit synthetic personas generated by 3 LLMs (GPT4o, Gemini 1.5 Pro, Deepseek 2.5) through the lens of representational harm, focusing specifically on racial identity. Using a mixed methods approach combining close reading, lexical analysis, and a parameterized creativity framework, we compare 1512 LLM generated personas to human-authored responses. Our findings reveal that LLMs disproportionately foreground racial markers, overproduce culturally coded language, and construct personas that are syntactically elaborate yet narratively reductive. These patterns result in a range of sociotechnical harms, including stereotyping, exoticism, erasure, and benevolent bias, that are often obfuscated by superficially positive narrations. We formalize this phenomenon as algorithmic othering, where minoritized identities are rendered hypervisible but less authentic. Based on these findings, we offer design recommendations for narrative-aware evaluation metrics and community-centered validation protocols for synthetic identity generation.