BingoGuard: LLM Content Moderation Tools with Risk Levels
作者: Fan Yin, Philippe Laban, Xiangyu Peng, Yilun Zhou, Yixin Mao, Vaibhav Vats, Linnea Ross, Divyansh Agarwal, Caiming Xiong, Chien-Sheng Wu
分类: cs.CL
发布日期: 2025-03-09
备注: 10 pages, 4 figures, 4 tables. ICLR 2025 poster
💡 一句话要点
BingoGuard:构建具备风险等级评估能力的大语言模型内容审核工具
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 内容审核 大语言模型 风险评估 有害内容检测 生成-过滤框架
📋 核心要点
- 现有LLM内容审核器缺乏对风险等级的细粒度评估能力,难以满足不同安全阈值平台的需求。
- BingoGuard通过引入主题相关的严重程度评估标准,并结合生成-过滤框架构建训练数据,实现风险等级预测。
- 实验表明,BingoGuard在多个基准测试中超越现有模型,证明了其在有害内容检测和风险评估方面的有效性。
📝 摘要(中文)
大型语言模型(LLM)生成的恶意内容可能造成不同程度的危害。现有的基于LLM的审核器虽然可以检测有害内容,但难以评估风险等级,并且可能遗漏低风险输出。准确的风险评估使具有不同安全阈值的平台能够定制内容过滤和拒绝策略。本文针对11个有害主题,提出了每个主题的严重程度评估标准,并构建了BingoGuard,一个旨在预测二元安全标签和严重程度等级的基于LLM的审核系统。为了解决严重程度等级标注数据不足的问题,我们提出了一个可扩展的生成-过滤框架,该框架首先生成不同严重程度等级的响应,然后过滤掉低质量的响应。使用此框架,我们创建了BingoGuardTrain(一个包含54,897个示例的训练数据集,涵盖各种主题、响应严重程度和风格)和BingoGuardTest(一个包含988个示例的测试集,基于我们的严重程度评估标准进行显式标记,能够对模型在不同严重程度等级上的行为进行细粒度分析)。经过BingoGuardTrain训练的BingoGuard-8B在多个审核基准测试(包括WildGuardTest和HarmBench)以及BingoGuardTest上实现了最先进的性能,优于最佳公共模型WildGuard 4.3%。我们的分析表明,将严重程度等级纳入训练可以显著提高检测性能,并使模型能够有效地衡量有害响应的严重程度。
🔬 方法详解
问题定义:现有的大语言模型内容审核系统无法准确评估生成内容的风险等级,导致平台难以根据自身安全阈值进行精细化管理。现有方法要么只关注二元安全标签,要么缺乏对不同严重程度的区分能力,无法满足实际应用需求。
核心思路:BingoGuard的核心思路是引入针对不同有害主题的严重程度评估标准,并训练模型同时预测内容的安全性(二元标签)和严重程度等级。通过这种方式,模型可以更全面地理解内容的风险,从而实现更精确的审核。
技术框架:BingoGuard的整体框架包括数据生成、数据过滤和模型训练三个主要阶段。首先,利用LLM生成不同严重程度等级的响应。然后,使用过滤机制去除低质量或不符合要求的响应。最后,使用高质量的数据集训练模型,使其能够预测内容的安全性以及对应的严重程度等级。
关键创新:BingoGuard的关键创新在于提出了一个可扩展的生成-过滤框架,用于构建包含不同严重程度等级标注的数据集。该框架能够有效地解决缺乏严重程度标注数据的问题,并为训练更强大的内容审核模型提供了数据基础。此外,针对不同主题设计严重程度评估标准,使得模型能够更准确地评估特定类型有害内容的风险。
关键设计:在数据生成阶段,使用了prompt工程技术来引导LLM生成不同严重程度的响应。在数据过滤阶段,使用了基于规则和基于模型的过滤方法,以确保数据的质量。在模型训练阶段,使用了交叉熵损失函数来优化二元安全标签的预测,并使用了均方误差损失函数来优化严重程度等级的预测。具体模型架构使用了8B参数量的模型,并进行了微调。
📊 实验亮点
BingoGuard-8B在多个内容审核基准测试中取得了领先的性能。在BingoGuardTest上,相比于最佳公共模型WildGuard,性能提升了4.3%。实验结果表明,将严重程度等级纳入训练可以显著提高检测性能,并使模型能够有效地衡量有害响应的严重程度。这些结果验证了BingoGuard在有害内容检测和风险评估方面的有效性。
🎯 应用场景
BingoGuard可应用于各种在线平台的内容审核,例如社交媒体、论坛、电商平台等。通过准确评估内容的风险等级,平台可以根据自身安全策略,对不同风险等级的内容采取不同的处理方式,例如直接删除、降权、警告用户等,从而有效维护平台的内容安全和用户体验。该研究也有助于提升LLM的安全性,降低其被恶意利用的风险。
📄 摘要(原文)
Malicious content generated by large language models (LLMs) can pose varying degrees of harm. Although existing LLM-based moderators can detect harmful content, they struggle to assess risk levels and may miss lower-risk outputs. Accurate risk assessment allows platforms with different safety thresholds to tailor content filtering and rejection. In this paper, we introduce per-topic severity rubrics for 11 harmful topics and build BingoGuard, an LLM-based moderation system designed to predict both binary safety labels and severity levels. To address the lack of annotations on levels of severity, we propose a scalable generate-then-filter framework that first generates responses across different severity levels and then filters out low-quality responses. Using this framework, we create BingoGuardTrain, a training dataset with 54,897 examples covering a variety of topics, response severity, styles, and BingoGuardTest, a test set with 988 examples explicitly labeled based on our severity rubrics that enables fine-grained analysis on model behaviors on different severity levels. Our BingoGuard-8B, trained on BingoGuardTrain, achieves the state-of-the-art performance on several moderation benchmarks, including WildGuardTest and HarmBench, as well as BingoGuardTest, outperforming best public models, WildGuard, by 4.3\%. Our analysis demonstrates that incorporating severity levels into training significantly enhances detection performance and enables the model to effectively gauge the severity of harmful responses.