Is LLM an Overconfident Judge? Unveiling the Capabilities of LLMs in Detecting Offensive Language with Annotation Disagreement
作者: Junyu Lu, Kai Ma, Kaichun Wang, Kelaiti Xiao, Roy Ka-Wei Lee, Bo Xu, Liang Yang, Hongfei Lin
分类: cs.CL, cs.AI
发布日期: 2025-02-10 (更新: 2025-05-18)
备注: 18 pages, accepted at the ACL 2025
💡 一句话要点
揭示LLM在处理标注不一致的冒犯性语言检测中的能力与过度自信问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 冒犯性语言检测 标注不一致 模型置信度 少样本学习 指令微调 内容审核
📋 核心要点
- 现有冒犯性语言检测方法难以有效处理标注不一致的样本,尤其是在模型置信度校准方面存在挑战。
- 该研究通过分析LLM在不同标注一致性水平下的表现,揭示其在处理不一致样本时的能力和过度自信问题。
- 实验表明,利用不一致样本进行训练可以显著提高LLM在冒犯性语言检测中的准确率,并提升与人类判断的一致性。
📝 摘要(中文)
大型语言模型(LLM)已成为冒犯性语言检测的关键工具,但其处理标注不一致的能力仍未得到充分探索。由于主观解释,不一致样本带来了独特的挑战,因为它们本质上是模糊的。理解LLM如何处理这些情况,特别是它们的置信度水平,可以深入了解它们与人类标注者的一致性。本研究系统地评估了多个LLM在不同标注一致性水平下检测冒犯性语言的性能。我们分析了二元分类准确率,检查了模型置信度与人类不一致之间的关系,并探讨了不一致样本如何在少样本学习和指令微调期间影响模型决策。我们的研究结果表明,LLM在低一致性样本上表现不佳,并且在这些模糊情况下常常表现出过度自信。然而,在训练中使用不一致样本可以提高检测准确率和模型与人类判断的一致性。这些见解为增强基于LLM的冒犯性语言检测在现实世界中的审核任务奠定了基础。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在冒犯性语言检测任务中,对于标注不一致样本处理能力不足的问题。现有方法在处理此类样本时,往往无法准确判断其冒犯性,并且模型置信度与人类判断存在偏差,导致过度自信的问题。这使得LLM在实际应用中,尤其是在内容审核等场景下,容易做出错误的决策。
核心思路:论文的核心思路是通过系统性地评估LLM在不同标注一致性水平下的表现,分析模型置信度与人类不一致之间的关系,从而揭示LLM在处理不一致样本时的能力和局限性。此外,论文还探索了利用不一致样本进行训练,以提高LLM的检测准确率和与人类判断的一致性。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 构建包含不同标注一致性水平的冒犯性语言数据集;2) 选择多个具有代表性的LLM进行评估;3) 分析LLM在不同一致性水平下的二元分类准确率;4) 考察模型置信度与人类不一致之间的关系;5) 通过少样本学习和指令微调,研究不一致样本对模型决策的影响;6) 分析利用不一致样本进行训练后,模型性能的提升情况。
关键创新:该研究的关键创新在于:1) 系统性地研究了LLM在处理标注不一致的冒犯性语言检测任务中的表现,填补了该领域的空白;2) 揭示了LLM在低一致性样本上表现出过度自信的问题,为改进模型置信度校准提供了新的视角;3) 证明了利用不一致样本进行训练可以有效提高LLM的检测准确率和与人类判断的一致性。
关键设计:论文的关键设计包括:1) 选取不同规模和架构的LLM,以保证研究的广泛性和代表性;2) 设计合理的评估指标,如二元分类准确率和模型置信度与人类不一致之间的相关性,以全面评估模型性能;3) 采用少样本学习和指令微调等技术,研究不一致样本对模型决策的影响;4) 精心设计实验,对比不同训练策略下模型的性能表现,以验证利用不一致样本进行训练的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在低一致性样本上表现出过度自信,但在利用不一致样本进行训练后,检测准确率显著提高,模型与人类判断的一致性也得到提升。具体而言,通过指令微调,模型在低一致性样本上的准确率提升了X%(具体数值未知),并且模型置信度与人类判断的相关性也得到了显著改善。
🎯 应用场景
该研究成果可应用于各种在线内容审核平台,帮助提高冒犯性语言检测的准确性和效率。通过更好地处理标注不一致的样本,可以减少误判和漏判,提升用户体验,并降低平台运营风险。此外,该研究还可以为开发更鲁棒、更符合人类价值观的LLM提供指导。
📄 摘要(原文)
Large Language Models (LLMs) have become essential for offensive language detection, yet their ability to handle annotation disagreement remains underexplored. Disagreement samples, which arise from subjective interpretations, pose a unique challenge due to their ambiguous nature. Understanding how LLMs process these cases, particularly their confidence levels, can offer insight into their alignment with human annotators. This study systematically evaluates the performance of multiple LLMs in detecting offensive language at varying levels of annotation agreement. We analyze binary classification accuracy, examine the relationship between model confidence and human disagreement, and explore how disagreement samples influence model decision-making during few-shot learning and instruction fine-tuning. Our findings reveal that LLMs struggle with low-agreement samples, often exhibiting overconfidence in these ambiguous cases. However, utilizing disagreement samples in training improves both detection accuracy and model alignment with human judgment. These insights provide a foundation for enhancing LLM-based offensive language detection in real-world moderation tasks.