Lost in Pronunciation: Detecting Chinese Offensive Language Disguised by Phonetic Cloaking Replacement

作者: Haotan Guo, Jianfei He, Jiayuan Ma, Hongbin Na, Zimu Wang, Haiyang Zhang, Qi Chen, Wei Wang, Zijing Shi, Tao Shen, Ling Chen

分类: cs.CL

发布日期: 2025-07-10

备注: In progress

💡 一句话要点

提出音韵隐蔽替换检测方法以解决中文攻击性语言识别问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音韵隐蔽替换 攻击性语言检测 内容审核 自然语言处理 数据集构建

📋 核心要点

现有的攻击性语言检测方法主要依赖规则和合成扰动，无法应对用户的创造性表达，导致检测效果不佳。
本文提出了一种新的音韵隐蔽替换分类法，并通过构建真实数据集来评估现有检测模型的局限性。
实验结果显示，最佳模型的F1-score仅为0.672，通过重新审视拼音提示策略，显著提高了检测准确性。

📝 摘要（中文）

音韵隐蔽替换（PCR）是指故意使用同音或近音变体来隐藏有害意图，这已成为中文内容审核的主要障碍。现有评估方法主要依赖于基于规则的合成扰动，忽视了真实用户的创造性。本文将PCR组织为四类表面形式的分类法，并编制了一个包含500个自然发生的音韵隐蔽攻击性帖子的数据集。对当前最先进的大型语言模型进行基准测试，结果显示最佳模型的F1-score仅为0.672，零-shot思维链提示甚至使性能下降。通过错误分析，本文重新审视了早期研究认为无效的基于拼音的提示策略，发现其能恢复大量丢失的准确性。该研究提供了首个全面的中文PCR分类法、现实基准以及一种轻量级的缓解技术，推动了鲁棒性有害内容检测的研究。

🔬 方法详解

问题定义：本文旨在解决中文攻击性语言中音韵隐蔽替换（PCR）对内容审核的挑战。现有方法多依赖规则和合成数据，无法有效应对真实用户的创造性表达，导致检测性能不足。

核心思路：论文提出了一种四类音韵隐蔽替换的分类法，并构建了一个包含500个自然发生的攻击性帖子的数据集，以真实场景为基础进行评估。通过对现有模型的错误分析，重新审视拼音提示策略，发现其在提高检测准确性方面的潜力。

技术框架：整体架构包括数据集构建、模型基准测试和错误分析三个主要模块。首先，收集和整理音韵隐蔽的攻击性语言数据；其次，使用现有的语言模型进行基准测试；最后，通过分析错误案例，优化提示策略。

关键创新：本文的创新点在于首次提出了全面的中文PCR分类法，并通过真实数据集揭示了当前检测器的局限性。此外，重新审视的拼音提示策略显著提高了模型的检测准确性。

关键设计：在模型训练中，采用了特定的损失函数和参数设置，以适应音韵隐蔽替换的特性。通过对比实验，验证了不同提示策略对模型性能的影响，最终选择了最优的拼音提示方案。

🖼️ 关键图片

📊 实验亮点

实验结果表明，当前最先进的模型在该数据集上的F1-score仅为0.672，且在零-shot思维链提示下性能更低。通过引入拼音提示策略，模型的检测准确性得到了显著提升，展示了该方法在音韵隐蔽替换检测中的有效性。

🎯 应用场景

该研究的潜在应用领域包括社交媒体内容审核、在线评论监控和自动化内容过滤等。通过提高对音韵隐蔽攻击性语言的检测能力，可以有效减少网络暴力和有害内容的传播，提升用户体验和平台安全性。未来，该方法也可扩展至其他语言的相似问题，具有广泛的实际价值。

📄 摘要（原文）

Phonetic Cloaking Replacement (PCR), defined as the deliberate use of homophonic or near-homophonic variants to hide toxic intent, has become a major obstacle to Chinese content moderation. While this problem is well-recognized, existing evaluations predominantly rely on rule-based, synthetic perturbations that ignore the creativity of real users. We organize PCR into a four-way surface-form taxonomy and compile \ours, a dataset of 500 naturally occurring, phonetically cloaked offensive posts gathered from the RedNote platform. Benchmarking state-of-the-art LLMs on this dataset exposes a serious weakness: the best model reaches only an F1-score of 0.672, and zero-shot chain-of-thought prompting pushes performance even lower. Guided by error analysis, we revisit a Pinyin-based prompting strategy that earlier studies judged ineffective and show that it recovers much of the lost accuracy. This study offers the first comprehensive taxonomy of Chinese PCR, a realistic benchmark that reveals current detectors' limits, and a lightweight mitigation technique that advances research on robust toxicity detection.

Lost in Pronunciation: Detecting Chinese Offensive Language Disguised by Phonetic Cloaking Replacement

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理