Beyond Keywords: Evaluating Large Language Model Classification of Nuanced Ableism
作者: Naba Rizvi, Harper Strickland, Saleha Ahmedi, Aekta Kallepalli, Isha Khirwadkar, William Wu, Imani N. S. Munyaka, Nedjma Ousidhoum
分类: cs.CL, cs.AI
发布日期: 2025-05-26
💡 一句话要点
评估大语言模型对细微歧视性语言的分类能力,揭示其在自闭症歧视识别上的局限性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 歧视性语言 自闭症 自然语言处理 内容审核
📋 核心要点
- 大型语言模型在决策任务中被广泛应用,但其潜在的歧视性偏见,特别是针对残疾人群体的歧视,尚未得到充分研究。
- 该研究通过评估LLMs识别针对自闭症个体的细微歧视性语言的能力,揭示了LLMs在理解和识别歧视性内容方面的局限性。
- 实验结果表明,LLMs虽然能识别相关术语,但难以捕捉歧视性语言的细微含义,且过度依赖关键词匹配,导致上下文理解偏差。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地应用于诸如简历筛选和内容审核等决策任务中,这使得它们能够放大或抑制某些观点。虽然之前的研究已经发现了LLMs中与残疾相关的偏见,但人们对其如何概念化歧视或在文本中检测歧视知之甚少。本文评估了四个LLMs识别针对自闭症个体的细微歧视性语言的能力。我们研究了它们对相关术语的理解与其在上下文中识别歧视性内容的效果之间的差距。结果表明,LLMs可以识别与自闭症相关的语言,但经常忽略有害或冒犯的含义。此外,我们对人类和LLM的解释进行了定性比较。我们发现,LLMs倾向于依赖表面关键词匹配,导致上下文误解,而人类注释者则考虑上下文、说话者身份和潜在影响。另一方面,LLMs和人类在注释方案上达成一致,表明二元分类足以评估LLM的性能,这与先前涉及人类注释者的研究结果一致。
🔬 方法详解
问题定义:现有的大型语言模型在内容审核和决策任务中被广泛应用,但它们是否能够准确识别和处理针对特定群体的歧视性言论是一个重要问题。尤其是在针对自闭症等群体的细微歧视性语言方面,现有方法往往依赖于简单的关键词匹配,无法捕捉到歧视的深层含义和上下文语境。这可能导致歧视性内容被忽略,从而加剧社会偏见。
核心思路:本文的核心思路是通过对比LLMs和人类在识别细微歧视性语言方面的表现,揭示LLMs的局限性。通过分析LLMs的解释和决策过程,找出其在理解上下文、识别说话者意图和评估潜在影响方面的不足。从而为改进LLMs的歧视性内容识别能力提供指导。
技术框架:该研究的技术框架主要包括以下几个步骤:1. 构建包含细微歧视性语言的数据集,该数据集专门针对自闭症群体。2. 选择四个具有代表性的大型语言模型进行评估。3. 设计实验,评估LLMs识别歧视性语言的能力,并与人类注释者的表现进行对比。4. 对LLMs和人类的解释进行定性分析,找出其差异和共性。5. 分析实验结果,总结LLMs在识别细微歧视性语言方面的优势和不足。
关键创新:该研究的关键创新在于:1. 关注了大型语言模型在识别细微歧视性语言方面的能力,这是一个相对较新的研究领域。2. 采用了定性分析的方法,深入研究了LLMs的解释和决策过程,从而揭示了其在理解上下文和识别说话者意图方面的局限性。3. 通过对比LLMs和人类的表现,为改进LLMs的歧视性内容识别能力提供了有价值的参考。
关键设计:该研究的关键设计包括:1. 数据集的构建,需要确保数据集包含足够多的细微歧视性语言,并且能够反映自闭症群体的真实经历。2. 实验的设计,需要确保实验能够有效地评估LLMs的识别能力,并且能够与人类的表现进行公平的对比。3. 定性分析的方法,需要确保分析能够深入挖掘LLMs的解释和决策过程,并且能够揭示其在理解上下文和识别说话者意图方面的局限性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLMs在识别自闭症相关语言方面表现良好,但在识别细微的歧视性含义时存在明显不足。LLMs倾向于依赖关键词匹配,而忽略上下文和说话者意图,导致对歧视性内容的误判。与人类注释者相比,LLMs在理解歧视性语言的深层含义方面存在显著差距。
🎯 应用场景
该研究的成果可应用于改进内容审核系统,提高其识别和过滤歧视性言论的能力,尤其是在针对弱势群体的细微歧视方面。此外,该研究还可以帮助开发者更好地理解LLMs的偏见,从而设计出更加公平和包容的AI系统。未来,该研究可以扩展到其他类型的歧视性语言,并探索更有效的歧视检测方法。
📄 摘要(原文)
Large language models (LLMs) are increasingly used in decision-making tasks like résumé screening and content moderation, giving them the power to amplify or suppress certain perspectives. While previous research has identified disability-related biases in LLMs, little is known about how they conceptualize ableism or detect it in text. We evaluate the ability of four LLMs to identify nuanced ableism directed at autistic individuals. We examine the gap between their understanding of relevant terminology and their effectiveness in recognizing ableist content in context. Our results reveal that LLMs can identify autism-related language but often miss harmful or offensive connotations. Further, we conduct a qualitative comparison of human and LLM explanations. We find that LLMs tend to rely on surface-level keyword matching, leading to context misinterpretations, in contrast to human annotators who consider context, speaker identity, and potential impact. On the other hand, both LLMs and humans agree on the annotation scheme, suggesting that a binary classification is adequate for evaluating LLM performance, which is consistent with findings from prior studies involving human annotators.