Annotator Positionality as Signal: Psychometric Weighting for Anti-Autistic Ableism Detection

📄 arXiv: 2605.26397v1 📥 PDF

作者: Naba Rizvi, Harper Strickland, Saleha Ahmedi, Nedjma Ousidhoum

分类: cs.CL, cs.AI

发布日期: 2026-05-26

备注: main paper: 8 pages; total: 18 pages; 2 figures


💡 一句话要点

提出基于标注者立场的心理测量加权框架,用于检测反自闭症歧视言论。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 反自闭症歧视 大型语言模型 标注者立场 心理测量加权 偏见检测

📋 核心要点

  1. 大型语言模型可能放大歧视性观点,现有方法难以有效识别反自闭症歧视性语言。
  2. 论文提出基于标注者立场的心理测量加权框架,更准确地捕捉社区视角。
  3. 实验表明,该框架能有效识别LLM中的歧视性输出,并揭示模型对表面关键词的依赖。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被用于决策任务,在这些任务中,它们可能会放大或抑制某些观点,这在影响自闭症群体的高风险环境中引起了关注。虽然之前的研究已经确定了LLM中与残疾相关的偏见,但尚不清楚它们如何概念化歧视或在文本中检测到它。我们引入了一个偏见感知评估框架,该框架以标注者立场为基础,采用心理测量加权的、社区邻近的真实数据,旨在识别反自闭症歧视性语言。该框架构成了一个比传统的多数投票聚合更严格的标准,后者显著且持续地低估了自闭症患者和接受自闭症的观点。我们发现,LLM经常产生有害的输出,错误地将社区回收的语言标记为歧视性语言,并且在评估工具被屏蔽时,对自闭症患者表达更消极的态度。我们的错误分析表明,模型依赖于表面关键词匹配,而不是说话者身份等上下文因素,以及该语言是促进群体内部团结还是造成群体外部伤害。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在检测反自闭症歧视言论方面的不足。现有方法,如多数投票聚合,无法充分考虑自闭症群体及其支持者的观点,导致对歧视性语言的误判或忽略。LLM容易依赖表面关键词匹配,而忽略语境和说话者身份等重要信息,从而产生有害输出。

核心思路:论文的核心思路是利用标注者立场作为信号,通过心理测量加权的方式,构建更具代表性和准确性的ground truth。这种方法赋予自闭症患者和接受自闭症的标注者更高的权重,从而更好地反映社区的真实观点,并减少LLM对歧视性语言的误判。

技术框架:该框架包含以下主要阶段:1) 数据收集:收集包含潜在歧视性语言的文本数据。2) 标注:由不同立场的标注者(包括自闭症患者、接受自闭症者和非自闭症者)对文本进行标注,判断其是否包含反自闭症歧视。3) 心理测量加权:根据标注者的立场,采用心理测量方法(具体方法未知)对标注结果进行加权,生成社区邻近的ground truth。4) 模型评估:使用加权后的ground truth评估LLM在检测反自闭症歧视性语言方面的性能。5) 错误分析:分析LLM的错误类型,揭示其潜在的偏见和局限性。

关键创新:最重要的技术创新点在于将标注者立场作为信号,并采用心理测量加权的方式构建ground truth。与传统的多数投票聚合相比,该方法更注重社区视角,能够更准确地识别反自闭症歧视性语言。此外,该框架还强调对LLM错误类型的分析,有助于深入了解模型的偏见来源。

关键设计:论文中关于心理测量加权的具体方法和参数设置细节未知。损失函数和网络结构等技术细节也未在摘要中提及。未来的研究可以进一步探索不同的加权策略和模型架构,以提高反自闭症歧视性语言检测的准确性和鲁棒性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

研究表明,LLM经常产生有害输出,错误地将社区回收的语言标记为歧视性语言,并且在评估工具被屏蔽时,对自闭症患者表达更消极的态度。错误分析揭示模型依赖于表面关键词匹配,而非语境因素。具体性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于开发更公平、更包容的自然语言处理系统,减少LLM在涉及自闭症群体时的歧视性输出。该框架可用于评估和改进LLM在其他社会敏感领域的表现,例如性别歧视、种族歧视等。此外,该研究有助于提高公众对反自闭症歧视的认识,促进社会对自闭症群体的理解和尊重。

📄 摘要(原文)

Large language models (LLMs) are increasingly used in decision-making tasks where they can amplify or suppress perspectives, raising concerns in high-stakes settings affecting autistic communities. While previous research has identified disability-related biases in LLMs, it remains unclear how they conceptualize ableism or detect it in text. We introduce a bias-aware evaluation framework targeting anti-autistic ableist language with a psychometrically-weighted, community-proximate ground truth anchored in annotator positionality. This framework constitutes a stricter standard than conventional majority-vote aggregation which significantly and consistently underweights autistic and autism-accepting perspectives. We find that LLMs frequently produce harmful outputs, mislabel community-reclaimed language as ableist, and express more negative attitudes toward autistic people when assessment instruments are masked. Our error analysis reveals that models rely on surface-level keyword matching rather than contextual factors such as speaker identity, and whether the language fosters in-group solidarity or inflicts out-group harm.