Exploring Multimodal Challenges in Toxic Chinese Detection: Taxonomy, Benchmark, and Findings

作者: Shujian Yang, Shiyao Cui, Chuanrui Hu, Haicheng Wang, Tianwei Zhang, Minlie Huang, Jialiang Lu, Han Qiu

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-05-30

备注: Accepted to ACL 2025 (Findings). Camera-ready version

💡 一句话要点

针对中文毒性内容检测，提出多模态扰动分类体系并构建基准评测LLM

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 毒性内容检测 多模态学习 中文自然语言处理 大型语言模型 对抗攻击

📋 核心要点

现有大型语言模型在检测毒性中文内容时，容易受到简单字符替换等扰动攻击，鲁棒性不足。
论文提出针对中文毒性内容的多模态扰动分类体系，并构建相应数据集，用于评估LLM的鲁棒性。
实验表明，LLM在检测扰动后的毒性中文内容时性能下降，且使用少量扰动样本微调可能导致过拟合。

📝 摘要（中文）

本文关注使用语言模型检测中文毒性内容的挑战。尽管大型语言模型(LLMs)在理解中文方面表现出色，但最近的研究表明，在毒性中文文本中进行简单的字符替换就很容易使最先进的LLMs感到困惑。本文强调中文语言的多模态特性是LLMs应用于中文毒性内容检测的一个关键挑战。首先，我们提出了一个毒性中文内容中3种扰动策略和8种具体方法的分类体系。然后，我们基于此分类体系构建了一个数据集，并对9个SOTA LLMs（来自美国和中国）进行基准测试，以评估它们是否可以检测到被扰动的毒性中文文本。此外，我们还探索了具有成本效益的增强解决方案，如上下文学习（ICL）和监督微调（SFT）。我们的结果揭示了两个重要的发现。(1) LLMs检测被扰动的多模态中文毒性内容的能力较弱。(2) 使用少量扰动示例进行ICL或SFT可能会导致LLMs“过度纠正”：将许多正常的中文内容错误地识别为有毒。

🔬 方法详解

问题定义：现有的大型语言模型在处理中文毒性内容检测任务时，虽然在正常文本上表现良好，但容易受到简单的字符替换、同音字替换等扰动攻击。这些扰动利用了中文的多模态特性，使得模型难以准确识别毒性内容。现有方法缺乏对这些扰动的系统性分析和针对性防御。

核心思路：本文的核心思路是认识到中文毒性内容检测中的多模态挑战，并构建一个包含多种扰动类型的基准数据集，用于评估和提升LLM的鲁棒性。通过分析不同扰动类型对模型性能的影响，可以更好地理解模型的弱点，并设计更有效的防御策略。

技术框架：整体框架包括三个主要部分：1) 提出毒性中文内容扰动分类体系；2) 基于该体系构建数据集；3) 使用该数据集对SOTA LLM进行基准测试，并探索ICL和SFT等增强方法。扰动分类体系将扰动分为三个策略，并细化为八种具体方法。数据集包含原始毒性文本和经过不同扰动处理后的文本。基准测试评估模型在不同扰动下的性能表现。

关键创新：论文的关键创新在于提出了一个针对中文毒性内容检测的多模态扰动分类体系。该体系系统地总结了常见的扰动类型，并为构建更具挑战性的数据集提供了理论基础。此外，论文还通过实验揭示了LLM在处理这些扰动时的局限性，为未来的研究方向提供了指导。

关键设计：扰动分类体系包含三个策略：字形扰动、字音扰动和语义扰动。每个策略下包含若干具体方法，例如字形扰动包括相似字替换、笔画增删等；字音扰动包括同音字替换、谐音替换等；语义扰动包括近义词替换、语序调整等。数据集的构建过程中，针对每种扰动方法，都生成了相应的扰动样本。在基准测试中，使用了多种SOTA LLM，并评估了它们在原始文本和扰动文本上的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SOTA LLM在检测扰动后的毒性中文内容时，性能显著下降，表明现有模型对多模态扰动的鲁棒性不足。此外，使用少量扰动样本进行ICL或SFT可能会导致模型“过度纠正”，将正常文本误判为有毒。这些发现为未来的研究提供了重要的参考。

🎯 应用场景

该研究成果可应用于各类在线社区、社交媒体平台和内容审核系统，提升中文毒性内容检测的准确性和鲁棒性。通过识别和防御各种多模态扰动，可以有效减少网络欺凌、仇恨言论等有害信息的传播，维护健康的网络环境。未来的研究可以进一步探索更复杂的扰动类型和更有效的防御方法。

📄 摘要（原文）

Detecting toxic content using language models is important but challenging. While large language models (LLMs) have demonstrated strong performance in understanding Chinese, recent studies show that simple character substitutions in toxic Chinese text can easily confuse the state-of-the-art (SOTA) LLMs. In this paper, we highlight the multimodal nature of Chinese language as a key challenge for deploying LLMs in toxic Chinese detection. First, we propose a taxonomy of 3 perturbation strategies and 8 specific approaches in toxic Chinese content. Then, we curate a dataset based on this taxonomy, and benchmark 9 SOTA LLMs (from both the US and China) to assess if they can detect perturbed toxic Chinese text. Additionally, we explore cost-effective enhancement solutions like in-context learning (ICL) and supervised fine-tuning (SFT). Our results reveal two important findings. (1) LLMs are less capable of detecting perturbed multimodal Chinese toxic contents. (2) ICL or SFT with a small number of perturbed examples may cause the LLMs "overcorrect'': misidentify many normal Chinese contents as toxic.

Exploring Multimodal Challenges in Toxic Chinese Detection: Taxonomy, Benchmark, and Findings

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理