SMARTER: A Data-efficient Framework to Improve Toxicity Detection with Explanation via Self-augmenting Large Language Models

📄 arXiv: 2509.15174v2 📥 PDF

作者: Huy Nghiem, Advik Sachdeva, Hal Daumé

分类: cs.CL, cs.AI

发布日期: 2025-09-18 (更新: 2025-10-08)

备注: NLP, Hate speech detection, explanation, LLM. Version 2: updated experiments and analysis


💡 一句话要点

SMARTER:利用自增强大语言模型,高效提升毒性检测能力并提供可解释性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 毒性检测 大型语言模型 可解释性 自增强学习 内容审核

📋 核心要点

  1. 现有毒性检测方法依赖大量标注数据,且缺乏可解释性,限制了其在低资源场景下的应用。
  2. SMARTER框架利用LLM的自增强能力,生成合成解释并进行跨模型训练,从而提升毒性检测性能和可解释性。
  3. 实验表明,SMARTER在三个基准数据集上,仅使用少量数据即可显著提升LLM的毒性检测性能,最高提升13.5%的宏平均F1值。

📝 摘要(中文)

为了解决社交媒体上恶意内容泛滥的问题,我们提出了SMARTER,一个数据高效的两阶段框架,它利用大型语言模型(LLMs)进行可解释的内容审核。在第一阶段,我们利用LLMs自身的输出来生成合成解释,用于正确和不正确的标签,从而通过偏好优化实现对齐,且只需要极少的人工监督。在第二阶段,我们通过跨模型训练来改进解释质量,使较弱的模型在风格和语义上与较强的模型对齐。在HateXplain、Latent Hate和Implicit Hate三个基准任务上的实验表明,SMARTER使LLMs能够在仅使用少量训练数据的情况下,比标准的few-shot基线提高高达13.5%的宏平均F1值。我们的框架通过利用LLMs的自我改进能力进行分类和解释,为低资源环境提供了一种可扩展的策略。

🔬 方法详解

问题定义:论文旨在解决社交媒体内容审核中,毒性内容检测任务对大量标注数据依赖的问题。现有方法通常需要大量人工标注数据进行训练,成本高昂,且缺乏对模型决策过程的解释,难以信任和改进。尤其是在低资源语言或领域中,数据稀缺问题更加突出。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的自增强能力,通过生成合成解释来提升毒性检测性能,并降低对人工标注数据的依赖。通过让LLM解释其自身的预测结果,可以有效地利用LLM的知识,并提高模型的可解释性。

技术框架:SMARTER框架包含两个主要阶段: 1. 自增强解释生成阶段:利用LLM生成对正确和错误标签的解释,并通过偏好优化使LLM与人类价值观对齐。这一阶段旨在利用LLM自身的知识来生成高质量的解释。 2. 跨模型训练阶段:通过跨模型训练,将较强模型的解释能力迁移到较弱的模型,从而提高整体的解释质量和检测性能。这一阶段旨在提高模型的泛化能力和效率。

关键创新:SMARTER框架的关键创新在于利用LLM的自增强能力,通过生成合成解释来提升毒性检测性能,并降低对人工标注数据的依赖。与传统的监督学习方法不同,SMARTER框架能够有效地利用LLM的知识,并提高模型的可解释性。此外,跨模型训练的设计使得知识可以从强大的模型转移到较弱的模型,从而提高效率和可扩展性。

关键设计: * 偏好优化:使用偏好优化技术,使LLM生成的解释与人类价值观对齐。具体来说,通过人工标注少量数据,对LLM生成的解释进行排序,然后使用这些排序数据来训练LLM,使其生成更符合人类价值观的解释。 * 跨模型训练:使用知识蒸馏技术,将较强模型的解释能力迁移到较弱的模型。具体来说,使用较强模型生成的解释作为弱模型的训练目标,从而使弱模型能够学习到强模型的解释能力。 * 损失函数:使用交叉熵损失函数来训练分类器,并使用KL散度损失函数来训练解释生成器。此外,还使用了一种正则化项,以防止解释生成器生成过于复杂的解释。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SMARTER框架在HateXplain、Latent Hate和Implicit Hate三个基准数据集上进行了评估。实验结果表明,SMARTER框架在仅使用少量训练数据的情况下,比标准的few-shot基线提高了高达13.5%的宏平均F1值。此外,SMARTER框架还能够生成高质量的解释,提高了模型的可解释性。这些结果表明,SMARTER框架是一种有效的数据高效的毒性检测方法。

🎯 应用场景

SMARTER框架可应用于社交媒体平台的内容审核,自动检测和过滤有害信息,维护健康的网络环境。该方法尤其适用于低资源语言或领域,能够在数据稀缺的情况下提升毒性检测性能。此外,SMARTER提供的可解释性有助于用户理解审核决策,增强平台的透明度和用户信任度。未来,该框架可扩展到其他文本分类任务,如情感分析、垃圾邮件检测等。

📄 摘要(原文)

WARNING: This paper contains examples of offensive materials. To address the proliferation of toxic content on social media, we introduce SMARTER, we introduce SMARTER, a data-efficient two-stage framework for explainable content moderation using Large Language Models (LLMs). In Stage 1, we leverage LLMs' own outputs to generate synthetic explanations for both correct and incorrect labels, enabling alignment via preference optimization with minimal human supervision. In Stage 2, we refine explanation quality through cross-model training, allowing weaker models to align stylistically and semantically with stronger ones. Experiments on three benchmark tasks -- HateXplain, Latent Hate, and Implicit Hate -- demonstrate that SMARTER enables LLMs to achieve up to a 13.5% macro-F1 improvement over standard few-shot baselines while using only a fraction of the full training data. Our framework offers a scalable strategy for low-resource settings by harnessing LLMs' self-improving capabilities for both classification and explanation.