Efficient Toxicity Detection in Gaming Chats: A Comparative Study of Embeddings, Fine-Tuned Transformers and LLMs

📄 arXiv: 2510.17924v1 📥 PDF

作者: Yehor Tereshchenko, Mika Hämäläinen

分类: cs.CL, cs.AI

发布日期: 2025-10-20

备注: Published in the Journal of Data Mining & Digital Humanities (JDMDH), special issue NLP4DH

期刊: Journal of Data Mining & Digital Humanities, NLP4DH, October 14, 2025

DOI: 10.46298/jdmdh.16280


💡 一句话要点

对比嵌入、微调Transformer与LLM,高效检测游戏聊天中的有害言论

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 有害言论检测 自然语言处理 Transformer模型 大型语言模型 在线游戏 内容审核 DistilBERT

📋 核心要点

  1. 在线游戏聊天中检测有害言论面临准确性、速度和成本的挑战,现有方法难以兼顾。
  2. 论文提出一种混合审核系统架构,结合自动检测和持续学习,优化人工审核员的工作量。
  3. 实验表明,微调的DistilBERT在准确性和计算成本之间取得了最佳平衡,适合实际部署。

📝 摘要(中文)

本文对用于在线游戏聊天中自动有害言论检测的自然语言处理(NLP)方法进行了全面的比较分析。评估了传统机器学习模型与嵌入、具有零样本和少样本提示的大型语言模型(LLM)、微调的Transformer模型以及检索增强生成(RAG)方法。评估框架评估了三个关键维度:分类准确性、处理速度和计算成本。提出了一种混合审核系统架构,该架构通过自动检测优化了人工审核员的工作量,并结合了持续学习机制。实验结果表明,不同方法的性能差异显著,其中微调的DistilBERT实现了最佳的准确性-成本权衡。研究结果为在动态在线游戏环境中部署经济高效的内容审核系统提供了经验证据。

🔬 方法详解

问题定义:论文旨在解决在线游戏聊天环境中自动检测有害言论的问题。现有方法,如传统机器学习模型、大型语言模型(LLM)和Transformer模型,在准确性、处理速度和计算成本之间存在权衡,难以找到最佳的解决方案。特别是,如何在保证检测精度的前提下,降低计算资源消耗,是实际部署中的一个关键痛点。

核心思路:论文的核心思路是通过对比分析多种NLP方法,找到在准确性、速度和成本之间取得最佳平衡的方案。具体而言,论文评估了传统机器学习模型与嵌入、零样本/少样本LLM、微调Transformer模型和RAG方法,旨在为在线游戏环境选择最合适的有害言论检测模型。此外,论文还提出了一个混合审核系统架构,结合自动检测和人工审核,以优化整体审核效率。

技术框架:论文提出的混合审核系统架构包含以下主要模块:1) 自动检测模块:使用各种NLP模型(如DistilBERT)对聊天内容进行有害性预测;2) 人工审核模块:对自动检测模块标记为高风险的内容进行人工审核;3) 持续学习模块:利用人工审核的结果对自动检测模型进行持续训练和优化。整体流程是:用户发送聊天信息 -> 自动检测模块进行初步筛选 -> 高风险信息提交人工审核 -> 人工审核结果用于模型更新。

关键创新:论文的关键创新在于对多种NLP方法进行了全面的对比分析,并提出了一个实用的混合审核系统架构。与以往的研究相比,本文不仅关注模型的准确性,还考虑了处理速度和计算成本,为实际部署提供了更全面的参考。此外,混合审核系统架构的设计,能够有效降低人工审核的工作量,提高整体审核效率。

关键设计:论文中,DistilBERT模型的微调是关键设计之一。具体而言,论文可能采用了特定的数据集进行微调,并使用了合适的损失函数(如交叉熵损失)和优化器(如AdamW)。此外,混合审核系统架构中,如何设定自动检测模块的阈值,以平衡误报率和漏报率,也是一个重要的设计考虑。

📊 实验亮点

实验结果表明,微调的DistilBERT模型在准确性、处理速度和计算成本之间取得了最佳平衡,优于其他方法。这表明,在资源有限的情况下,微调的小型Transformer模型是部署高效内容审核系统的有效选择。具体的性能数据(如准确率、召回率、F1值)和与基线模型的对比结果(如LLM的零样本性能)需要在论文中查找。

🎯 应用场景

该研究成果可应用于各种在线社交平台、游戏社区和论坛,用于自动检测和过滤有害言论,维护健康的网络环境。通过降低人工审核的工作量,可以显著提高内容审核效率,并减少有害信息对用户的影响。未来,该研究可以扩展到其他语言和文化背景,并结合多模态信息(如图像和视频)进行更全面的内容审核。

📄 摘要(原文)

This paper presents a comprehensive comparative analysis of Natural Language Processing (NLP) methods for automated toxicity detection in online gaming chats. Traditional machine learning models with embeddings, large language models (LLMs) with zero-shot and few-shot prompting, fine-tuned transformer models, and retrieval-augmented generation (RAG) approaches are evaluated. The evaluation framework assesses three critical dimensions: classification accuracy, processing speed, and computational costs. A hybrid moderation system architecture is proposed that optimizes human moderator workload through automated detection and incorporates continuous learning mechanisms. The experimental results demonstrate significant performance variations across methods, with fine-tuned DistilBERT achieving optimal accuracy-cost trade-offs. The findings provide empirical evidence for deploying cost-effective, efficient content moderation systems in dynamic online gaming environments.