SLM-Mod: Small Language Models Surpass LLMs at Content Moderation
作者: Xianyang Zhan, Agam Goyal, Yilun Chen, Eshwar Chandrasekharan, Koustuv Saha
分类: cs.CL
发布日期: 2024-10-17 (更新: 2025-02-10)
备注: NAACL 2025 (Main): 17 pages, 8 figures, 10 tables
🔗 代码/项目: GITHUB
💡 一句话要点
SLM-Mod:小语言模型在内容审核方面超越大型语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 内容审核 小语言模型 社区定制 微调 自然语言处理
📋 核心要点
- 大型语言模型在内容审核中成本高昂,且缺乏社区定制性,无法满足特定社区的需求。
- 论文提出使用微调的小型语言模型(SLMs)进行社区特定的内容审核,降低成本并提高定制化程度。
- 实验表明,SLMs在Reddit社区内容审核中,准确率和召回率显著优于零样本LLMs,且优于少样本LLMs。
📝 摘要(中文)
大型语言模型(LLMs)在包括内容审核在内的许多自然语言理解任务中展现出潜力。然而,实时查询这些模型的成本可能很高,并且不允许采用社区特定的内容审核方法。为了应对这些挑战,我们探索了使用开源小语言模型(SLMs)进行社区特定的内容审核任务。我们通过比较SLMs(小于150亿参数)与更大的开源和闭源模型在零样本和少样本设置下的性能,来微调和评估SLMs。使用来自15个热门Reddit社区的15万条评论,我们发现SLMs在内容审核方面优于零样本LLMs——在所有社区中,平均准确率高出11.5%,召回率高出25.7%。此外,少样本上下文学习仅导致LLMs性能的边际提升,仍然不如SLMs。我们进一步展示了跨社区内容审核的潜力,这对新社区和跨平台审核技术的发展具有重要意义。最后,我们概述了基于语言模型的内容审核未来工作的方向。代码和模型可在https://github.com/AGoyal0512/SLM-Mod找到。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在内容审核应用中存在的成本高昂和缺乏社区定制性的问题。现有方法通常依赖于通用的大型模型,无法有效适应特定社区的语言风格和审核标准,导致审核效果不佳,且推理成本过高。
核心思路:论文的核心思路是利用小型语言模型(SLMs),通过在特定社区的数据上进行微调,使模型能够更好地理解和适应该社区的语言特点和审核规则。这种方法旨在降低计算成本,同时提高内容审核的准确性和召回率。
技术框架:整体框架包括数据收集、模型选择、微调和评估四个主要阶段。首先,从Reddit等社区收集大量评论数据。然后,选择合适的开源SLM作为基础模型。接着,使用收集到的数据对SLM进行微调,使其适应特定社区的内容审核任务。最后,通过与大型模型进行对比实验,评估SLM的性能。
关键创新:最重要的技术创新点在于证明了小型语言模型在特定领域(如社区内容审核)经过微调后,可以超越大型通用模型。这打破了以往认为只有大型模型才能胜任复杂自然语言处理任务的固有观念。
关键设计:论文的关键设计包括:1) 选择参数量小于15B的SLM,以降低计算成本;2) 使用来自15个Reddit社区的15万条评论进行微调,保证数据的多样性和代表性;3) 采用准确率和召回率作为评估指标,全面衡量模型的性能;4) 探索跨社区内容审核的可能性,为新社区和跨平台审核提供思路。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SLMs在内容审核方面显著优于零样本LLMs,平均准确率高出11.5%,召回率高出25.7%。即使采用少样本学习,LLMs的性能提升仍然不及SLMs。此外,研究还展示了跨社区内容审核的潜力,为新社区的内容审核提供了有效方案。
🎯 应用场景
该研究成果可应用于各类在线社区、社交平台和论坛的内容审核,帮助平台更高效、更准确地识别和过滤不良信息,维护健康的网络环境。同时,该方法也为跨平台内容审核提供了新的思路,有助于构建更加安全、友好的互联网生态。
📄 摘要(原文)
Large language models (LLMs) have shown promise in many natural language understanding tasks, including content moderation. However, these models can be expensive to query in real-time and do not allow for a community-specific approach to content moderation. To address these challenges, we explore the use of open-source small language models (SLMs) for community-specific content moderation tasks. We fine-tune and evaluate SLMs (less than 15B parameters) by comparing their performance against much larger open- and closed-sourced models in both a zero-shot and few-shot setting. Using 150K comments from 15 popular Reddit communities, we find that SLMs outperform zero-shot LLMs at content moderation -- 11.5% higher accuracy and 25.7% higher recall on average across all communities. Moreover, few-shot in-context learning leads to only a marginal increase in the performance of LLMs, still lacking compared to SLMs. We further show the promise of cross-community content moderation, which has implications for new communities and the development of cross-platform moderation techniques. Finally, we outline directions for future work on language model based content moderation. Code and models can be found at https://github.com/AGoyal0512/SLM-Mod.