ToVo: Toxicity Taxonomy via Voting

📄 arXiv: 2406.14835v3 📥 PDF

作者: Tinh Son Luong, Thanh-Thien Le, Thang Viet Doan, Linh Ngo Van, Thien Huu Nguyen, Diep Thi-Ngoc Nguyen

分类: cs.CL, cs.LG

发布日期: 2024-06-21 (更新: 2025-01-23)

备注: Findings of NAACL 2025


💡 一句话要点

ToVo:提出一种基于投票机制的毒性内容分类方法,解决现有模型透明性、定制性和可复现性不足的问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 毒性检测 内容审核 投票机制 思维链 开源数据集

📋 核心要点

  1. 现有毒性检测模型缺乏透明度、定制性和可复现性,主要原因是训练数据闭源和评估机制缺乏解释。
  2. 论文提出一种结合投票和思维链的数据集创建机制,生成高质量的开源毒性内容检测数据集,包含分类分数和解释性推理。
  3. 基于该数据集训练的模型,相比现有检测器,增强了透明度和可定制性,并能更好地针对特定用例进行微调。

📝 摘要(中文)

现有的毒性检测模型面临着显著的局限性,例如缺乏透明度、定制性和可复现性。这些挑战源于其训练数据的闭源性质以及对其评估机制缺乏解释。为了解决这些问题,我们提出了一种数据集创建机制,该机制集成了投票和思维链过程,从而生成用于毒性内容检测的高质量开源数据集。我们的方法确保了每个样本具有多样化的分类指标,并且包括分类分数和对分类的解释性推理。我们利用通过我们提出的机制创建的数据集来训练我们的模型,然后将其与现有的广泛使用的检测器进行比较。我们的方法不仅增强了透明度和可定制性,而且有助于更好地针对特定用例进行微调。这项工作贡献了一个用于开发毒性内容检测模型的强大框架,强调开放性和适应性,从而为更有效和用户特定的内容审核解决方案铺平了道路。

🔬 方法详解

问题定义:现有毒性检测模型通常是闭源的,训练数据和评估方式不透明,导致用户难以理解模型的决策过程,也难以根据自身需求进行定制和复现。这限制了模型在实际应用中的灵活性和可靠性。

核心思路:论文的核心思路是通过引入投票机制和思维链过程,创建一个高质量、开源、可解释的毒性内容检测数据集。投票机制可以确保数据集的多样性和准确性,思维链过程可以提供模型决策的解释,从而提高模型的透明度和可信度。

技术框架:该方法主要包含两个阶段:数据集创建和模型训练。在数据集创建阶段,首先收集原始文本数据,然后邀请多个标注者对文本的毒性进行投票,并要求标注者给出判断理由(思维链)。最后,将投票结果和理由整合,形成带有分类标签和解释的数据集。在模型训练阶段,使用该数据集训练毒性检测模型,并与其他模型进行比较。

关键创新:该方法的关键创新在于结合了投票机制和思维链过程,创建了一个高质量、开源、可解释的毒性内容检测数据集。与传统的标注方法相比,投票机制可以减少标注偏差,提高数据质量;思维链过程可以提供模型决策的解释,增强模型的可解释性。

关键设计:论文中没有明确给出关键的参数设置、损失函数、网络结构等技术细节。数据集创建过程中,投票人数和思维链的质量控制是关键的设计因素。模型训练阶段,可以选择各种现有的文本分类模型,并根据数据集的特点进行调整。具体的技术细节可能需要根据实际情况进行调整和优化。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文的主要亮点在于提出了一个基于投票和思维链的数据集创建机制,并利用该机制创建了一个高质量的开源毒性内容检测数据集。虽然论文摘要中没有给出具体的性能数据和对比基线,但强调了该方法在增强透明度、可定制性和可复现性方面的优势,并为开发更有效和用户特定的内容审核解决方案奠定了基础。

🎯 应用场景

该研究成果可应用于各种在线平台的内容审核,例如社交媒体、论坛、评论区等。通过使用该方法训练的毒性检测模型,可以自动识别和过滤有害信息,维护健康的在线环境。此外,该研究提出的数据集创建机制也可以推广到其他文本分类任务中,例如情感分析、主题分类等,具有广泛的应用前景。

📄 摘要(原文)

Existing toxic detection models face significant limitations, such as lack of transparency, customization, and reproducibility. These challenges stem from the closed-source nature of their training data and the paucity of explanations for their evaluation mechanism. To address these issues, we propose a dataset creation mechanism that integrates voting and chain-of-thought processes, producing a high-quality open-source dataset for toxic content detection. Our methodology ensures diverse classification metrics for each sample and includes both classification scores and explanatory reasoning for the classifications. We utilize the dataset created through our proposed mechanism to train our model, which is then compared against existing widely-used detectors. Our approach not only enhances transparency and customizability but also facilitates better fine-tuning for specific use cases. This work contributes a robust framework for developing toxic content detection models, emphasizing openness and adaptability, thus paving the way for more effective and user-specific content moderation solutions.