Robust Persona-Aware Toxicity Detection with Prompt Optimization and Learned Ensembling
作者: Berk Atil, Rebecca J. Passonneau, Ninareh Mehrabi
分类: cs.CL
发布日期: 2026-01-05
💡 一句话要点
提出基于提示优化和集成学习的鲁棒的、考虑个体差异的毒性检测方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 毒性检测 个体差异 提示优化 集成学习 自然语言处理
📋 核心要点
- 现有毒性检测方法未能充分考虑不同人群视角和社会先验带来的主观性影响。
- 论文提出一种基于提示优化和集成学习的框架,以提升个体差异感知的毒性检测鲁棒性。
- 实验结果表明,该方法优于单一提示方法和传统集成方法,在不同个体上表现出更强的性能。
📝 摘要(中文)
毒性检测本质上是主观的,受到不同人群的视角和社会先验的影响。经济学和社会科学中使用的“多元化”建模旨在捕捉不同背景下的视角差异,但目前的大型语言模型(LLM)提示技术在不同个体和社会模型上的结果各不相同。本文对考虑个体差异的毒性检测进行了系统评估,表明没有单一的提示方法(包括我们提出的自动提示优化策略)能在所有模型-个体对上都表现最佳。为了利用互补误差,我们探索了集成四种提示变体,并提出了一个轻量级的元集成:一个基于提示预测的4位向量的SVM。结果表明,所提出的SVM集成始终优于单独的提示方法和传统的多数投票技术,在不同个体上实现了最强的整体性能。这项工作提供了首次对用于毒性检测的个体条件提示进行系统比较,并为在主观NLP任务中进行多元化评估提供了一种鲁棒的方法。
🔬 方法详解
问题定义:论文旨在解决毒性检测中存在的个体差异问题。现有的毒性检测方法通常忽略了不同人群对毒性的理解存在差异,导致模型在不同背景下表现不稳定。现有的LLM提示方法在不同个体和社会模型上的结果不一致,缺乏鲁棒性。
核心思路:论文的核心思路是利用多种提示方法,并通过集成学习的方式,结合不同提示方法的优势,从而提高毒性检测的鲁棒性和准确性。通过自动提示优化,寻找更适合特定个体的提示,并利用SVM元集成模型学习不同提示之间的互补关系。
技术框架:整体框架包括三个主要阶段:1) 提示优化阶段:使用自动提示优化策略,为每个个体找到最佳的提示。2) 提示预测阶段:使用四种不同的提示变体对文本进行毒性预测。3) 元集成阶段:将四种提示的预测结果作为特征向量,输入到SVM分类器中进行最终的毒性判断。
关键创新:论文的关键创新在于:1) 系统地研究了个体条件提示在毒性检测中的作用。2) 提出了一种基于自动提示优化和SVM元集成的鲁棒毒性检测方法。3) 通过实验证明了该方法在不同个体上的优越性。
关键设计:论文的关键设计包括:1) 使用自动提示优化策略,例如基于梯度下降或进化算法的方法,寻找最佳提示。2) 选择四种不同的提示变体,以覆盖不同的视角和信息。3) 使用SVM作为元集成模型,学习不同提示之间的互补关系。4) 使用4位向量表示提示预测结果,降低计算复杂度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的SVM集成方法在不同个体上始终优于单独的提示方法和传统的多数投票技术。该方法在多个数据集上取得了显著的性能提升,证明了其在个体差异感知的毒性检测方面的有效性和鲁棒性。具体性能数据和提升幅度在论文中详细展示。
🎯 应用场景
该研究成果可应用于在线社交平台、内容审核系统、舆情分析等领域,提升毒性内容识别的准确性和公平性,减少误判和偏见,从而营造更健康的网络环境。未来可扩展到其他主观性较强的自然语言处理任务,如情感分析、观点挖掘等。
📄 摘要(原文)
Toxicity detection is inherently subjective, shaped by the diverse perspectives and social priors of different demographic groups. While ``pluralistic'' modeling as used in economics and the social sciences aims to capture perspective differences across contexts, current Large Language Model (LLM) prompting techniques have different results across different personas and base models. In this work, we conduct a systematic evaluation of persona-aware toxicity detection, showing that no single prompting method, including our proposed automated prompt optimization strategy, uniformly dominates across all model-persona pairs. To exploit complementary errors, we explore ensembling four prompting variants and propose a lightweight meta-ensemble: an SVM over the 4-bit vector of prompt predictions. Our results demonstrate that the proposed SVM ensemble consistently outperforms individual prompting methods and traditional majority-voting techniques, achieving the strongest overall performance across diverse personas. This work provides one of the first systematic comparisons of persona-conditioned prompting for toxicity detection and offers a robust method for pluralistic evaluation in subjective NLP tasks.