PSK@EEUCA 2026: Fine-Tuning Large Language Models with Synthetic Data Augmentation for Multi-Class Toxicity Detection in Gaming Chat

📄 arXiv: 2605.07201v1 📥 PDF

作者: Srikar Kashyap Pulipaka

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-08

备注: Accepted to the EEUCA workshop at ACL 2026


💡 一句话要点

提出基于合成数据增强的Llama 3.1微调策略,以提升游戏聊天场景下的多类毒性检测性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 LoRA微调 毒性检测 数据增强 自然语言处理 模型泛化 游戏社区安全

📋 核心要点

  1. 游戏聊天数据具有高度非正式、上下文依赖强且类别分布不均的特点,导致传统分类模型难以有效捕捉细粒度的毒性特征。
  2. 提出了一种结合LoRA微调与受控合成数据增强的策略,通过引入5%的合成样本平衡类别分布,并优化模型对边缘毒性案例的识别能力。
  3. 实验表明该方法在测试集上达到0.6234的F1-macro分数,并揭示了验证集与测试集分布差异导致的“验证陷阱”对模型泛化性能的负面影响。

📝 摘要(中文)

本文介绍了作者为EEUCA 2026共享任务开发的系统,旨在识别《坦克世界》聊天信息中的六类毒性行为:非毒性、侮辱/谩骂、其他冒犯、仇恨/骚扰、威胁及极端主义。研究探索了多种技术路径,包括基于编码器的模型、结合LoRA微调的指令微调大语言模型(LLM)、层级分类、一对多策略及多种集成方法。最终,作者提出的最优系统结合了Llama 3.1 8B模型与5%的校准合成数据增强,在测试集上取得了0.6234的F1-macro分数,在35支参赛队伍中排名第4。此外,论文深入分析了数据集标注模式对模型泛化能力的影响,揭示了高验证性能与低测试迁移率之间的“验证陷阱”现象。

🔬 方法详解

问题定义:论文旨在解决游戏社区中多类别毒性检测的挑战,特别是面对非正式语言、缩写及高度上下文相关的恶意言论时,现有模型在泛化能力和类别区分度上的不足。

核心思路:核心思路在于通过指令微调(Instruction Tuning)赋予大模型更强的语义理解能力,并利用合成数据增强来缓解特定毒性类别的样本稀疏问题,同时通过集成学习提升鲁棒性。

技术框架:系统采用了以Llama 3.1 8B为基础的架构,结合LoRA(Low-Rank Adaptation)进行高效参数微调。流程包括数据预处理、合成数据生成、模型微调、以及针对不同分类策略(如层级分类与一对多策略)的集成评估。

关键创新:最重要的创新在于引入了“受控合成数据增强”策略,通过精确控制合成数据的比例(5%),在提升模型对少见毒性类别识别能力的同时,避免了模型过拟合于合成噪声。

关键设计:关键技术细节包括使用LoRA进行参数高效微调以降低计算开销;针对“验证陷阱”现象,作者强调了在模型选择阶段需警惕验证集性能与测试集泛化能力之间的脱节,并建议采用更稳健的交叉验证策略。

📊 实验亮点

该系统在EEUCA 2026竞赛中表现优异,以0.6234的F1-macro分数位列第4名(共35支队伍)。实验亮点在于通过对比实验证实了5%的合成数据增强是性能提升的关键点,并深入剖析了“验证陷阱”现象,为解决小样本或分布不均数据集下的模型泛化问题提供了实证依据。

🎯 应用场景

该研究可直接应用于在线游戏平台的实时内容审核系统,通过自动识别并过滤恶意聊天信息,维护社区健康环境。此外,其提出的合成数据增强与泛化性分析方法,对于社交媒体、论坛等其他需要处理非正式、高噪声文本的毒性检测场景具有重要的参考价值。

📄 摘要(原文)

This paper describes our system for the EEUCA 2026 Shared Task on Understanding Toxic Behavior in Gaming Communities. The task involves classifying World of Tanks chat messages into six toxicity categories: Non-toxic, Insults/Flaming, Other Offensive, Hate/Harassment, Threats, and Extremism. We explore multiple approaches including encoder-based models, instruction-tuned LLMs with LoRA fine-tuning, hierarchical classification, one-vs-rest strategies, and various ensemble methods. Our best system combines Llama 3.1 8B with carefully calibrated 5\% synthetic data augmentation, achieving an F1-macro score of 0.6234 on the test set, placing 4th out of 35 participating teams. We provide extensive analysis of the dataset's annotation patterns and their impact on model generalization, revealing a critical ''validation trap'' phenomenon where high validation performance correlates with poor test transfer.