Analysing Differences in Persuasive Language in LLM-Generated Text: Uncovering Stereotypical Gender Patterns
作者: Amalie Brogaard Pauli, Maria Barrett, Max Müller-Eberstein, Isabelle Augenstein, Ira Assent
分类: cs.CL, cs.AI
发布日期: 2026-01-09
💡 一句话要点
揭示LLM生成文本中性别刻板印象:分析说服性语言的性别差异
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 性别偏见 说服性语言 社会刻板印象 自然语言处理
📋 核心要点
- 现有研究缺乏对LLM生成说服性语言时,针对不同性别群体差异的系统性分析,这可能导致偏见。
- 该研究提出一个评估框架,通过控制接收者性别、发送者意图和输出语言,分析LLM生成说服性语言的差异。
- 实验结果表明,LLM在生成说服性语言时存在显著的性别差异,反映了社会心理学中已知的性别刻板印象。
📝 摘要(中文)
大型语言模型(LLM)越来越多地被用于日常交流任务,包括起草旨在影响和说服他人的信息。先前的工作表明,LLM可以成功地说服人类并放大说服性语言。因此,至关重要的是要了解用户指令如何影响说服性语言的生成,以及生成的说服性语言在针对不同群体时是否存在差异。本文提出了一个框架,用于评估说服性语言生成如何受到接收者性别、发送者意图或输出语言的影响。我们使用成对提示指令评估了13个LLM和16种语言。我们使用基于社会心理学和传播科学的LLM-as-judge设置,评估模型在19个类别的说服性语言上的响应。结果表明,所有模型生成的说服性语言都存在显著的性别差异。这些模式反映了与社会心理学和社会语言学中记录的性别刻板印象语言倾向一致的偏见。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)在生成具有说服性的文本时,是否会因为目标受众的性别不同而产生差异化的语言模式。现有方法缺乏对这种潜在性别偏见的系统性评估,可能导致LLM在实际应用中强化社会刻板印象。
核心思路:核心思路是通过设计一系列受控实验,系统性地改变LLM生成文本的目标受众性别,并分析生成的文本在说服性语言特征上的差异。通过这种方式,揭示LLM是否以及如何在生成说服性文本时表现出性别偏见。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 提示工程:设计成对的提示指令,分别针对不同性别的目标受众。2) 模型生成:使用13个不同的LLM和16种语言生成文本。3) 语言特征分析:使用基于LLM的评判器(LLM-as-judge)评估生成的文本在19个类别的说服性语言特征上的表现。4) 统计分析:对评估结果进行统计分析,以确定是否存在显著的性别差异。
关键创新:该研究的关键创新在于:1) 提出了一个系统性的框架,用于评估LLM在生成说服性文本时的性别偏见。2) 使用LLM-as-judge的方法,自动评估生成的文本在多个说服性语言特征上的表现。3) 通过大规模实验,揭示了LLM在生成说服性文本时存在的显著性别差异,并将其与社会心理学中的性别刻板印象联系起来。
关键设计:关键设计包括:1) 成对提示指令的设计,确保除了目标受众性别之外,其他因素保持一致。2) LLM-as-judge的prompt设计,确保评判的客观性和准确性。3) 统计分析方法的选择,确保能够有效地检测出显著的性别差异。
📊 实验亮点
实验结果显示,所有模型在生成的说服性语言中都存在显著的性别差异。例如,针对女性的文本更倾向于使用情感化的语言,而针对男性的文本更倾向于使用逻辑性的语言。这些模式与社会心理学和社会语言学中记录的性别刻板印象语言倾向一致。该研究还发现,不同LLM和不同语言之间,性别偏见的程度存在差异。
🎯 应用场景
该研究成果可应用于提升LLM在生成文本时的公平性和避免偏见。通过了解LLM中存在的性别刻板印象,可以开发相应的干预措施,例如在训练数据中进行去偏见处理,或者在生成过程中引入约束条件,以确保生成的文本不会强化社会刻板印象。这对于LLM在广告、公共关系、客户服务等领域的应用至关重要。
📄 摘要(原文)
Large language models (LLMs) are increasingly used for everyday communication tasks, including drafting interpersonal messages intended to influence and persuade. Prior work has shown that LLMs can successfully persuade humans and amplify persuasive language. It is therefore essential to understand how user instructions affect the generation of persuasive language, and to understand whether the generated persuasive language differs, for example, when targeting different groups. In this work, we propose a framework for evaluating how persuasive language generation is affected by recipient gender, sender intent, or output language. We evaluate 13 LLMs and 16 languages using pairwise prompt instructions. We evaluate model responses on 19 categories of persuasive language using an LLM-as-judge setup grounded in social psychology and communication science. Our results reveal significant gender differences in the persuasive language generated across all models. These patterns reflect biases consistent with gender-stereotypical linguistic tendencies documented in social psychology and sociolinguistics.