Adapting Psycholinguistic Research for LLMs: Gender-inclusive Language in a Coreference Context
作者: Marion Bartl, Thomas Brendan Murphy, Susan Leavy
分类: cs.CL, cs.AI
发布日期: 2025-02-18
备注: 9 pages, 7 figures, submitted to ACL 2025 (ARR February 2025 cycle)
💡 一句话要点
研究LLM对性别包容性语言的理解:揭示核心指代中的性别偏见
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 性别偏见 心理语言学 共指消解 性别包容性语言
📋 核心要点
- 现有研究缺乏对LLM如何处理性别包容性语言的深入理解,这可能导致模型产生带有性别偏见的输出。
- 该研究借鉴心理语言学方法,分析LLM在英语和德语中生成共指术语时是否保持性别一致性或表现出性别偏见。
- 实验结果表明,英语LLM存在潜在的男性偏见,而德语LLM的男性偏见更为强烈,甚至抵消了性别中立化策略。
📝 摘要(中文)
性别包容性语言旨在确保所有人,无论性别,都能与特定概念相关联。虽然心理语言学研究已经考察了其对人类认知的影响,但大型语言模型(LLM)如何处理性别包容性语言仍不清楚。鉴于商业LLM在日常应用中日益普及,检验LLM是否以中立方式解读性别包容性语言至关重要,因为它们生成的语言可能会影响用户。本研究考察了LLM生成的共指术语是否与给定的性别表达一致,或者反映了模型的偏见。通过将心理语言学方法从法语调整到英语和德语,我们发现,在英语中,LLM通常保持先行词的性别,但表现出潜在的男性偏见。在德语中,这种偏见更为强烈,覆盖了所有测试的性别中立化策略。
🔬 方法详解
问题定义:该论文旨在研究大型语言模型(LLM)在处理性别包容性语言时是否存在性别偏见。现有方法缺乏对LLM如何理解和生成性别中立或性别包容性语言的深入分析,这可能导致模型在生成文本时强化现有的社会性别偏见。
核心思路:论文的核心思路是借鉴心理语言学中研究人类如何理解和处理语言的方法,将其应用于评估LLM对性别包容性语言的理解能力。通过分析LLM在生成共指术语时是否保持与先行词一致的性别表达,来判断模型是否存在性别偏见。
技术框架:该研究主要分为以下几个阶段:1) 选择合适的心理语言学实验范式;2) 将该范式从法语调整为英语和德语;3) 使用调整后的范式生成测试用例,包含性别明确和性别中立的先行词;4) 使用LLM生成与先行词共指的术语;5) 分析LLM生成的共指术语的性别表达,判断其是否与先行词的性别一致,或者是否存在性别偏见。
关键创新:该研究的关键创新在于将心理语言学的方法应用于评估LLM的性别偏见。通过这种跨学科的方法,能够更深入地了解LLM如何处理语言中的性别信息,并为开发更公平、更包容的LLM提供指导。
关键设计:论文采用了改编自心理语言学的实验设计,具体细节包括:选择特定类型的句子结构,控制先行词的性别表达(男性、女性、中性),以及评估LLM生成共指术语时性别表达的一致性。此外,论文还考察了不同的性别中立化策略对LLM行为的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,英语LLM在处理性别包容性语言时,虽然总体上能够保持与先行词一致的性别,但仍然存在潜在的男性偏见。更重要的是,德语LLM表现出更强的男性偏见,甚至能够抵消所有测试的性别中立化策略。这表明,不同语言的LLM在处理性别信息时可能存在显著差异。
🎯 应用场景
该研究成果可应用于评估和改进LLM的公平性和包容性,尤其是在涉及性别敏感话题的应用场景中,如招聘、医疗、教育等。通过减少LLM的性别偏见,可以避免其生成带有歧视色彩的文本,从而促进社会公平。
📄 摘要(原文)
Gender-inclusive language is often used with the aim of ensuring that all individuals, regardless of gender, can be associated with certain concepts. While psycholinguistic studies have examined its effects in relation to human cognition, it remains unclear how Large Language Models (LLMs) process gender-inclusive language. Given that commercial LLMs are gaining an increasingly strong foothold in everyday applications, it is crucial to examine whether LLMs in fact interpret gender-inclusive language neutrally, because the language they generate has the potential to influence the language of their users. This study examines whether LLM-generated coreferent terms align with a given gender expression or reflect model biases. Adapting psycholinguistic methods from French to English and German, we find that in English, LLMs generally maintain the antecedent's gender but exhibit underlying masculine bias. In German, this bias is much stronger, overriding all tested gender-neutralization strategies.