Learning Who Disagrees: Demographic Importance Weighting for Modeling Annotator Distributions with DiADEM
作者: Samay U. Shetty, Tharindu Cyril Weerasooriya, Deepak Pandita, Christopher M. Homan
分类: cs.AI, cs.CL
发布日期: 2026-04-09
💡 一句话要点
提出DiADEM模型,通过人口统计学重要性加权建模标注者分布,提升主观内容理解。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主观标注 分歧建模 人口统计学 重要性加权 自然语言处理
📋 核心要点
- 现有方法忽略了标注者人口统计信息对主观标注差异的影响,导致无法准确建模人类分歧。
- DiADEM通过学习人口统计学重要性权重,显式建模标注者身份,从而预测标注分歧。
- 实验表明,DiADEM在分歧跟踪任务上显著优于现有方法,并揭示了种族和年龄是关键影响因素。
📝 摘要(中文)
当人们标注主观内容时,他们会产生分歧,而这种分歧并非噪音,它反映了标注者因社会身份和生活经历而产生的真实视角差异。然而,标准做法仍然是将这些判断扁平化为单一的多数标签。即使采用思维链推理,基于大型语言模型的最新方法也未能更好地恢复人类分歧的结构。我们提出了DiADEM,一种神经架构,可以学习“每个人口统计轴的重要性”,从而预测谁会在什么问题上产生分歧。DiADEM通过学习到的重要性向量α控制的每个人口统计学预测来编码标注者,通过互补的连接和Hadamard交互来融合标注者和项目表示,并使用一种新颖的项目级分歧损失进行训练,该损失直接惩罚错误预测的标注方差。在DICES对话安全和VOICED政治冒犯基准测试中,DiADEM在标准和视角主义指标上都大大优于LLM-as-a-judge和神经模型基线,实现了强大的分歧跟踪(DICES上r=0.75)。学习到的α权重表明,种族和年龄始终是驱动两个数据集中标注者分歧的最具影响力的人口统计因素。我们的结果表明,对于旨在忠实地代表人类解释多样性的NLP系统来说,显式地建模标注者是谁,而不仅仅是他们标注了什么,至关重要。
🔬 方法详解
问题定义:论文旨在解决现有自然语言处理模型在处理主观标注数据时,无法有效建模标注者之间的分歧的问题。现有方法通常将标注分歧视为噪声并忽略,或者简单地使用多数投票,未能考虑到标注者的社会身份和生活经历对标注结果的影响。这导致模型无法准确理解和预测人类的解释多样性。
核心思路:论文的核心思路是通过显式地建模标注者的人口统计信息,来预测标注者之间的分歧。DiADEM模型学习每个人口统计轴(例如,年龄、种族、性别)的重要性权重,并利用这些权重来调整标注者表示,从而更好地捕捉标注者之间的差异。这种方法的核心在于假设标注者的社会身份和生活经历会影响其对主观内容的理解和判断。
技术框架:DiADEM模型包含以下主要模块:1) 标注者编码器:使用人口统计学信息,通过学习到的重要性向量α对标注者进行编码。2) 项目编码器:对需要标注的项目(例如,文本)进行编码。3) 融合模块:通过互补的连接和Hadamard积,融合标注者和项目表示。4) 分歧预测模块:预测标注者在特定项目上的分歧程度。模型使用项目级别的分歧损失进行训练,该损失直接惩罚错误预测的标注方差。
关键创新:DiADEM的关键创新在于:1) 显式建模标注者的人口统计信息,并学习每个人口统计轴的重要性权重。2) 提出了一种新颖的项目级分歧损失,该损失直接惩罚错误预测的标注方差。3) 通过融合标注者和项目表示,捕捉标注者和项目之间的交互作用。
关键设计:DiADEM的关键设计包括:1) 使用可学习的向量α来控制每个人口统计学预测的重要性。2) 使用互补的连接和Hadamard积来融合标注者和项目表示,以捕捉不同类型的交互作用。3) 使用均方误差(MSE)作为项目级分歧损失,以惩罚错误预测的标注方差。模型的训练目标是最小化该损失函数。
🖼️ 关键图片
📊 实验亮点
DiADEM在DICES和VOICED数据集上取得了显著的性能提升。在DICES数据集上,DiADEM实现了0.75的分歧跟踪相关性,显著优于LLM-as-a-judge和神经模型基线。实验结果还表明,种族和年龄是驱动标注者分歧的最具影响力的人口统计因素。这些结果验证了DiADEM模型在建模人类分歧方面的有效性。
🎯 应用场景
DiADEM模型可应用于各种需要处理主观标注数据的场景,例如:内容审核、情感分析、观点挖掘、对话安全等。通过更准确地建模人类分歧,DiADEM可以帮助提高NLP系统的公平性、鲁棒性和可解释性,并更好地理解人类的解释多样性。该模型还有助于识别影响标注者分歧的关键人口统计因素,从而为社会科学研究提供新的视角。
📄 摘要(原文)
When humans label subjective content, they disagree, and that disagreement is not noise. It reflects genuine differences in perspective shaped by annotators' social identities and lived experiences. Yet standard practice still flattens these judgments into a single majority label, and recent LLM-based approaches fare no better: we show that prompted large language models, even with chain-of-thought reasoning, fail to recover the structure of human disagreement. We introduce DiADEM, a neural architecture that learns "how much each demographic axis matters" for predicting who will disagree and on what. DiADEM encodes annotators through per-demographic projections governed by a learned importance vector $\boldsymbolα$, fuses annotator and item representations via complementary concatenation and Hadamard interactions, and is trained with a novel item-level disagreement loss that directly penalizes mispredicted annotation variance. On the DICES conversational-safety and VOICED political-offense benchmarks, DiADEM substantially outperforms both the LLM-as-a-judge and neural model baselines across standard and perspectivist metrics, achieving strong disagreement tracking ($r{=}0.75$ on DICES). The learned $\boldsymbolα$ weights reveal that race and age consistently emerge as the most influential demographic factors driving annotator disagreement across both datasets. Our results demonstrate that explicitly modeling who annotators are not just what they label is essential for NLP systems that aim to faithfully represent human interpretive diversity.