Lost in Pronunciation: Detecting Chinese Offensive Language Disguised by Phonetic Cloaking Replacement
作者: Haotan Guo, Jianfei He, Jiayuan Ma, Hongbin Na, Zimu Wang, Haiyang Zhang, Qi Chen, Wei Wang, Zijing Shi, Tao Shen, Ling Chen
分类: cs.CL
发布日期: 2025-07-10
备注: In progress
💡 一句话要点
提出音韵隐蔽替换检测方法以解决中文攻击性语言识别问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音韵隐蔽替换 攻击性语言检测 内容审核 自然语言处理 数据集构建
📋 核心要点
- 现有的攻击性语言检测方法主要依赖规则和合成扰动,无法应对用户的创造性表达,导致检测效果不佳。
- 本文提出了一种新的音韵隐蔽替换分类法,并通过构建真实数据集来评估现有检测模型的局限性。
- 实验结果显示,最佳模型的F1-score仅为0.672,通过重新审视拼音提示策略,显著提高了检测准确性。
📝 摘要(中文)
音韵隐蔽替换(PCR)是指故意使用同音或近音变体来隐藏有害意图,这已成为中文内容审核的主要障碍。现有评估方法主要依赖于基于规则的合成扰动,忽视了真实用户的创造性。本文将PCR组织为四类表面形式的分类法,并编制了一个包含500个自然发生的音韵隐蔽攻击性帖子的数据集。对当前最先进的大型语言模型进行基准测试,结果显示最佳模型的F1-score仅为0.672,零-shot思维链提示甚至使性能下降。通过错误分析,本文重新审视了早期研究认为无效的基于拼音的提示策略,发现其能恢复大量丢失的准确性。该研究提供了首个全面的中文PCR分类法、现实基准以及一种轻量级的缓解技术,推动了鲁棒性有害内容检测的研究。
🔬 方法详解
问题定义:本文旨在解决中文攻击性语言中音韵隐蔽替换(PCR)对内容审核的挑战。现有方法多依赖规则和合成数据,无法有效应对真实用户的创造性表达,导致检测性能不足。
核心思路:论文提出了一种四类音韵隐蔽替换的分类法,并构建了一个包含500个自然发生的攻击性帖子的数据集,以真实场景为基础进行评估。通过对现有模型的错误分析,重新审视拼音提示策略,发现其在提高检测准确性方面的潜力。
技术框架:整体架构包括数据集构建、模型基准测试和错误分析三个主要模块。首先,收集和整理音韵隐蔽的攻击性语言数据;其次,使用现有的语言模型进行基准测试;最后,通过分析错误案例,优化提示策略。
关键创新:本文的创新点在于首次提出了全面的中文PCR分类法,并通过真实数据集揭示了当前检测器的局限性。此外,重新审视的拼音提示策略显著提高了模型的检测准确性。
关键设计:在模型训练中,采用了特定的损失函数和参数设置,以适应音韵隐蔽替换的特性。通过对比实验,验证了不同提示策略对模型性能的影响,最终选择了最优的拼音提示方案。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当前最先进的模型在该数据集上的F1-score仅为0.672,且在零-shot思维链提示下性能更低。通过引入拼音提示策略,模型的检测准确性得到了显著提升,展示了该方法在音韵隐蔽替换检测中的有效性。
🎯 应用场景
该研究的潜在应用领域包括社交媒体内容审核、在线评论监控和自动化内容过滤等。通过提高对音韵隐蔽攻击性语言的检测能力,可以有效减少网络暴力和有害内容的传播,提升用户体验和平台安全性。未来,该方法也可扩展至其他语言的相似问题,具有广泛的实际价值。
📄 摘要(原文)
Phonetic Cloaking Replacement (PCR), defined as the deliberate use of homophonic or near-homophonic variants to hide toxic intent, has become a major obstacle to Chinese content moderation. While this problem is well-recognized, existing evaluations predominantly rely on rule-based, synthetic perturbations that ignore the creativity of real users. We organize PCR into a four-way surface-form taxonomy and compile \ours, a dataset of 500 naturally occurring, phonetically cloaked offensive posts gathered from the RedNote platform. Benchmarking state-of-the-art LLMs on this dataset exposes a serious weakness: the best model reaches only an F1-score of 0.672, and zero-shot chain-of-thought prompting pushes performance even lower. Guided by error analysis, we revisit a Pinyin-based prompting strategy that earlier studies judged ineffective and show that it recovers much of the lost accuracy. This study offers the first comprehensive taxonomy of Chinese PCR, a realistic benchmark that reveals current detectors' limits, and a lightweight mitigation technique that advances research on robust toxicity detection.