Tell Me What You Know About Sexism: Expert-LLM Interaction Strategies and Co-Created Definitions for Zero-Shot Sexism Detection

📄 arXiv: 2504.15392v1 📥 PDF

作者: Myrthe Reuver, Indira Sen, Matteo Melis, Gabriella Lapesa

分类: cs.CL, cs.CY

发布日期: 2025-04-21

备注: Accepted and published at Findings of NAACL 2025: cite published version whenever possible


💡 一句话要点

通过专家与LLM协同,为零样本性别歧视检测构建定义并提升性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 性别歧视检测 零样本学习 大型语言模型 人机协作 混合智能

📋 核心要点

  1. 现有性别歧视检测方法依赖大量标注数据,缺乏对性别歧视细微差别的理解,零样本检测面临挑战。
  2. 论文提出专家与LLM协同方法,通过交互式实验共同构建性别歧视定义,提升LLM对性别歧视的理解。
  3. 实验表明,专家与LLM共同创建的定义能够提升零样本性别歧视检测性能,尤其对LLM经验不足的专家。

📝 摘要(中文)

本文研究了性别歧视研究人员与大型语言模型(LLM)之间的混合智能和协作,采用了一个四部分流程。首先,九位性别歧视研究人员回答关于他们对性别歧视和LLM知识的问题。然后,他们参与了两个涉及LLM(GPT3.5)的交互式实验。第一个实验让专家评估模型关于性别歧视的知识以及在研究中使用的适用性。第二个实验的任务是创建三种不同的性别歧视定义:专家编写的定义、LLM编写的定义和共同创建的定义。最后,零样本分类实验使用来自每位专家的三种定义,并在一个提示模板中用于性别歧视检测,评估GPT4o在从五个性别歧视基准中抽取的2500个文本上的表现。然后,我们分析了由此产生的67500个分类决策。LLM交互导致更长和更复杂的性别歧视定义。与LLM生成的定义相比,专家编写的定义平均表现较差。然而,一些专家通过他们共同创建的性别歧视定义提高了分类性能,即使是那些在使用LLM方面没有经验的专家。

🔬 方法详解

问题定义:论文旨在解决零样本性别歧视检测问题。现有方法依赖于大量标注数据,难以泛化到新的数据集和场景。此外,现有方法可能无法捕捉到性别歧视的细微差别和上下文信息,导致检测效果不佳。因此,如何利用LLM的知识和推理能力,在没有标注数据的情况下进行有效的性别歧视检测是一个重要的挑战。

核心思路:论文的核心思路是利用领域专家与LLM的协同合作,共同构建更准确、更全面的性别歧视定义。通过专家对LLM的指导和反馈,以及LLM对专家知识的补充和扩展,最终生成高质量的性别歧视定义,并将其应用于零样本检测任务中。这种方法旨在结合人类的专业知识和机器的计算能力,从而提高性别歧视检测的准确性和泛化能力。

技术框架:论文的技术框架主要包括以下几个阶段: 1. 专家知识获取:通过问卷调查等方式,收集性别歧视研究人员对性别歧视和LLM的知识。 2. LLM交互实验:专家与LLM(GPT3.5)进行交互,评估LLM对性别歧视的理解和适用性。 3. 定义共创:专家分别独立编写、由LLM编写以及与LLM共同创建三种性别歧视定义。 4. 零样本分类:使用共创的性别歧视定义,结合提示工程,利用GPT4o对文本进行零样本性别歧视检测。 5. 结果分析:分析分类结果,评估不同定义对检测性能的影响。

关键创新:论文的关键创新在于提出了专家与LLM协同构建性别歧视定义的方法。与传统的依赖人工标注数据或直接使用LLM进行检测的方法不同,该方法充分利用了领域专家的知识和经验,并通过与LLM的交互,生成更具针对性和有效性的性别歧视定义。这种方法能够更好地捕捉性别歧视的复杂性和多样性,从而提高检测的准确性和泛化能力。

关键设计:论文的关键设计包括: 1. 三种定义方式:专家独立编写、LLM独立编写、专家与LLM共同创建,对比不同定义方式的效果。 2. 提示工程:使用包含性别歧视定义的提示模板,引导LLM进行零样本分类。 3. 多数据集评估:在五个不同的性别歧视基准数据集上进行评估,验证方法的泛化能力。 4. GPT4o作为分类器:选择GPT4o作为零样本分类器,利用其强大的语言理解和生成能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,专家与LLM共同创建的性别歧视定义能够提升零样本检测性能。虽然专家独立编写的定义表现不如LLM生成的定义,但通过协同合作,部分专家能够显著提高分类性能,即使他们在使用LLM方面经验不足。这表明专家知识与LLM能力的结合能够有效提升零样本性别歧视检测效果。

🎯 应用场景

该研究成果可应用于社交媒体内容审核、在线评论分析、新闻报道偏见检测等领域,有助于识别和减少网络空间中的性别歧视言论,营造更加公平和谐的社会环境。未来,该方法可以推广到其他偏见检测任务,例如种族歧视、宗教歧视等。

📄 摘要(原文)

This paper investigates hybrid intelligence and collaboration between researchers of sexism and Large Language Models (LLMs), with a four-component pipeline. First, nine sexism researchers answer questions about their knowledge of sexism and of LLMs. They then participate in two interactive experiments involving an LLM (GPT3.5). The first experiment has experts assessing the model's knowledge about sexism and suitability for use in research. The second experiment tasks them with creating three different definitions of sexism: an expert-written definition, an LLM-written one, and a co-created definition. Lastly, zero-shot classification experiments use the three definitions from each expert in a prompt template for sexism detection, evaluating GPT4o on 2.500 texts sampled from five sexism benchmarks. We then analyze the resulting 67.500 classification decisions. The LLM interactions lead to longer and more complex definitions of sexism. Expert-written definitions on average perform poorly compared to LLM-generated definitions. However, some experts do improve classification performance with their co-created definitions of sexism, also experts who are inexperienced in using LLMs.