Chinese Toxic Language Mitigation via Sentiment Polarity Consistent Rewrites

📄 arXiv: 2505.15297v1 📥 PDF

作者: Xintong Wang, Yixiao Liu, Jingheng Pan, Liang Ding, Longyue Wang, Chris Biemann

分类: cs.CL

发布日期: 2025-05-21

备注: 14 pages, 7 figures


💡 一句话要点

ToxiRewriteCN:首个中文情感极性一致的有害言论改写数据集,提升LLM在微妙语境下的解毒能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 有害言论检测 情感极性分析 文本改写 中文自然语言处理 大型语言模型

📋 核心要点

  1. 现有大型语言模型在处理中文有害言论时,常过度礼貌化,扭曲原意,尤其在表情符号、同音字等隐晦语境下表现不佳。
  2. ToxiRewriteCN数据集旨在通过提供情感极性一致的改写示例,帮助模型在解毒的同时,更好地保留原始表达的情感色彩。
  3. 实验结果表明,现有模型在微妙语境下的情感保真度仍有提升空间,ToxiRewriteCN的发布将促进相关研究。

📝 摘要(中文)

为了提升在线互动质量,在保留说话者原始意图的前提下消除冒犯性语言是一个具有挑战性但至关重要的目标。虽然大型语言模型(LLM)在改写有害内容方面显示出潜力,但它们通常会默认进行过于礼貌的改写,从而扭曲情感基调和交流意图。这个问题在中文中尤为突出,因为毒性通常通过表情符号、同音字或语篇上下文隐式产生。我们提出了ToxiRewriteCN,这是第一个明确设计用于保留情感极性的中文解毒数据集。该数据集包含1,556个精心标注的三元组,每个三元组包含一个有毒句子、一个情感对齐的无毒改写以及标记的有毒跨度。它涵盖了五个真实场景:标准表达、表情符号和同音字引起的毒性,以及单轮和多轮对话。我们评估了17个LLM,包括具有不同架构的商业和开源模型,涵盖四个维度:解毒准确性、流畅性、内容保留和情感极性。结果表明,虽然商业和MoE模型总体表现最佳,但所有模型都难以在表情符号、同音字和基于对话的输入等更微妙或上下文丰富的设置中平衡安全性和情感保真度。我们发布ToxiRewriteCN,以支持未来对中文可控、情感感知解毒的研究。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在中文有害言论改写任务中,过度追求安全而忽略情感极性一致性的问题。现有方法往往将有害言论改写得过于礼貌,导致情感失真,无法准确传达说话者的原始意图。尤其是在中文语境下,表情符号、同音字等隐晦表达方式增加了有害言论识别和改写的难度。

核心思路:论文的核心思路是构建一个高质量的中文有害言论改写数据集,该数据集包含情感极性与原始言论保持一致的改写示例。通过在该数据集上训练和评估LLM,可以提升模型在解毒的同时,更好地保留原始表达的情感色彩,从而实现更自然、更符合语境的改写。

技术框架:论文的主要技术框架包括数据集构建和模型评估两个阶段。数据集构建阶段,作者收集了包含标准表达、表情符号、同音字、单轮对话和多轮对话等多种场景的有害言论,并邀请人工标注人员进行情感极性一致的改写。模型评估阶段,作者选择了17个具有代表性的LLM,包括商业模型和开源模型,并在ToxiRewriteCN数据集上进行评估。评估指标包括解毒准确性、流畅性、内容保留和情感极性。

关键创新:论文最重要的技术创新点在于构建了首个中文情感极性一致的有害言论改写数据集ToxiRewriteCN。该数据集的特点在于:1) 专注于中文语境下的有害言论,涵盖了多种隐晦表达方式;2) 强调情感极性一致性,要求改写后的言论与原始言论的情感保持一致;3) 提供了高质量的人工标注数据,为模型训练和评估提供了可靠的基础。与现有数据集相比,ToxiRewriteCN更注重情感保真度,更符合实际应用需求。

关键设计:在数据集构建方面,作者采用了严格的标注流程,包括多轮审核和一致性评估,以确保数据的质量。在模型评估方面,作者选择了多种具有代表性的LLM,并采用了多种评估指标,以全面评估模型的性能。此外,作者还对实验结果进行了深入分析,揭示了现有模型在不同场景下的优缺点,为未来的研究提供了有价值的参考。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,商业模型和MoE模型在ToxiRewriteCN数据集上表现最佳,但在表情符号、同音字和对话等复杂场景下,所有模型在安全性和情感保真度之间都难以取得平衡。例如,在处理表情符号引起的毒性时,模型的解毒准确率明显下降,情感极性保持率也较低。这表明现有模型在理解和处理中文隐晦表达方面仍有提升空间。

🎯 应用场景

该研究成果可应用于在线社交平台、评论区、聊天机器人等场景,用于自动检测和改写有害言论,维护健康的在线交流环境。通过提升LLM的情感感知能力,可以减少误判和过度干预,更好地保护用户的言论自由和表达意愿。未来,该研究还可以扩展到其他语言和文化背景下,为构建更安全、更友好的在线社区做出贡献。

📄 摘要(原文)

Detoxifying offensive language while preserving the speaker's original intent is a challenging yet critical goal for improving the quality of online interactions. Although large language models (LLMs) show promise in rewriting toxic content, they often default to overly polite rewrites, distorting the emotional tone and communicative intent. This problem is especially acute in Chinese, where toxicity often arises implicitly through emojis, homophones, or discourse context. We present ToxiRewriteCN, the first Chinese detoxification dataset explicitly designed to preserve sentiment polarity. The dataset comprises 1,556 carefully annotated triplets, each containing a toxic sentence, a sentiment-aligned non-toxic rewrite, and labeled toxic spans. It covers five real-world scenarios: standard expressions, emoji-induced and homophonic toxicity, as well as single-turn and multi-turn dialogues. We evaluate 17 LLMs, including commercial and open-source models with variant architectures, across four dimensions: detoxification accuracy, fluency, content preservation, and sentiment polarity. Results show that while commercial and MoE models perform best overall, all models struggle to balance safety with emotional fidelity in more subtle or context-heavy settings such as emoji, homophone, and dialogue-based inputs. We release ToxiRewriteCN to support future research on controllable, sentiment-aware detoxification for Chinese.