Leveraging Large Language Models and Topic Modeling for Toxicity Classification

📄 arXiv: 2411.17876v1 📥 PDF

作者: Haniyeh Ehsani Oskouie, Christina Chance, Claire Huang, Margaret Capetz, Elizabeth Eyeson, Majid Sarrafzadeh

分类: cs.CL, cs.LG

发布日期: 2024-11-26

🔗 代码/项目: GITHUB


💡 一句话要点

利用大型语言模型和主题建模改进毒性分类,提升模型公平性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 毒性分类 大型语言模型 主题建模 BERTweet HateBERT 内容审核 偏差缓解

📋 核心要点

  1. 现有毒性分类模型存在偏差放大问题,可能对特定边缘群体造成不利影响,标注者的立场会影响模型的学习和判断。
  2. 该研究通过结合主题建模和微调BERTweet、HateBERT等模型,针对特定主题进行优化,以减轻标注者偏见的影响。
  3. 实验结果表明,在特定主题上微调的模型,其F1分数显著优于GPT-4等大型语言模型和PerspectiveAPI等传统API。

📝 摘要(中文)

内容审核和毒性分类是具有重要社会意义的关键任务。然而,研究表明,主要的分类模型在分类过程中会放大或减少偏差,并可能忽视或不利于某些边缘群体。研究人员认为,标注者的立场会影响黄金标准标签,模型从中学习并传播标注者的偏见。为了进一步研究标注者立场的影响,我们深入研究了在数据集上微调BERTweet和HateBERT,同时使用主题建模策略进行内容审核。结果表明,与GPT-4、PerspectiveAPI和RewireAPI等其他著名分类模型生成的预测相比,在特定主题上微调模型可以显著提高模型的F1分数。这些发现进一步表明,与早期方法相比,最先进的大型语言模型在准确检测和解释文本毒性方面存在显著局限性。代码可在https://github.com/aheldis/Toxicity-Classification.git 获取。

🔬 方法详解

问题定义:论文旨在解决现有毒性分类模型中存在的偏差问题,这些偏差源于标注者的立场,导致模型对某些群体产生不公平的判断。现有方法,如直接使用大型语言模型或通用API,无法有效识别和减轻这些偏差,导致分类结果的准确性和公平性受到影响。

核心思路:论文的核心思路是结合主题建模和微调预训练语言模型,针对特定主题进行毒性分类。通过主题建模,将文本数据分解为不同的主题,然后针对每个主题微调BERTweet和HateBERT等模型。这种方法能够使模型更好地理解特定主题下的毒性表达,从而减轻标注者偏见的影响,提高分类的准确性和公平性。

技术框架:整体框架包括以下几个主要阶段:1) 数据集准备:使用包含毒性标注的文本数据集。2) 主题建模:使用LDA等方法对文本数据进行主题建模,将文本划分为不同的主题。3) 模型微调:针对每个主题,分别微调BERTweet和HateBERT等预训练语言模型。4) 评估:使用F1分数等指标评估模型在不同主题上的性能,并与GPT-4、PerspectiveAPI等基线模型进行比较。

关键创新:论文的关键创新在于将主题建模与预训练语言模型微调相结合,针对特定主题进行毒性分类。这种方法能够有效减轻标注者偏见的影响,提高分类的准确性和公平性。与直接使用大型语言模型或通用API相比,该方法能够更好地理解特定主题下的毒性表达。

关键设计:论文的关键设计包括:1) 使用LDA进行主题建模,确定文本数据中的主题分布。2) 针对每个主题,分别微调BERTweet和HateBERT等模型,使用交叉熵损失函数进行优化。3) 使用F1分数作为评估指标,评估模型在不同主题上的性能。4) 与GPT-4、PerspectiveAPI等基线模型进行比较,验证该方法的有效性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在特定主题上微调BERTweet和HateBERT模型,可以显著提高毒性分类的F1分数。与GPT-4、PerspectiveAPI和RewireAPI等基线模型相比,该方法在特定主题上的性能提升明显,验证了该方法在减轻标注者偏见和提高分类准确性方面的有效性。

🎯 应用场景

该研究成果可应用于社交媒体平台、在线论坛等场景的内容审核,帮助识别和过滤有害信息,维护健康的网络环境。通过减轻模型偏差,可以提高内容审核的公平性,保护弱势群体的权益。未来,该方法可以扩展到其他文本分类任务,如情感分析、观点挖掘等。

📄 摘要(原文)

Content moderation and toxicity classification represent critical tasks with significant social implications. However, studies have shown that major classification models exhibit tendencies to magnify or reduce biases and potentially overlook or disadvantage certain marginalized groups within their classification processes. Researchers suggest that the positionality of annotators influences the gold standard labels in which the models learned from propagate annotators' bias. To further investigate the impact of annotator positionality, we delve into fine-tuning BERTweet and HateBERT on the dataset while using topic-modeling strategies for content moderation. The results indicate that fine-tuning the models on specific topics results in a notable improvement in the F1 score of the models when compared to the predictions generated by other prominent classification models such as GPT-4, PerspectiveAPI, and RewireAPI. These findings further reveal that the state-of-the-art large language models exhibit significant limitations in accurately detecting and interpreting text toxicity contrasted with earlier methodologies. Code is available at https://github.com/aheldis/Toxicity-Classification.git.