ToxicTone: A Mandarin Audio Dataset Annotated for Toxicity and Toxic Utterance Tonality

📄 arXiv: 2505.15773v1 📥 PDF

作者: Yu-Xiang Luo, Yi-Cheng Lin, Ming-To Chuang, Jia-Hung Chen, I-Ning Tsai, Pei Xing Kiew, Yueh-Hsuan Huang, Chien-Feng Liu, Yu-Chen Chen, Bo-Han Feng, Wenze Ren, Hung-yi Lee

分类: eess.AS, cs.CL, cs.SD

发布日期: 2025-05-21

备注: Accepted by INTERSPEECH 2025. 5 pages


💡 一句话要点

ToxicTone:构建大规模中文语音毒性数据集,并提出多模态检测框架。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 中文语音 毒性检测 多模态融合 情感分析 ToxicTone数据集

📋 核心要点

  1. 现有文本毒性检测研究广泛,但缺乏针对中文语音的毒性检测,忽略了语音韵律和文化表达。
  2. 论文构建了ToxicTone数据集,并提出多模态框架,融合声学、语言和情感特征检测中文语音毒性。
  3. 实验表明,该方法优于文本模型和基线模型,验证了语音特征在毒性检测中的重要性。

📝 摘要(中文)

本文提出了ToxicTone,一个大规模的中文语音数据集,专门用于检测语音中的毒性内容和语调。该数据集包含详细的标注,区分了不同形式(如辱骂、欺凌)和来源(如愤怒、讽刺、轻蔑)的毒性。数据来源于真实的音频,涵盖13个主题类别,反映了真实的交流场景。此外,论文还提出了一个多模态检测框架,该框架集成了声学、语言和情感特征,并利用了最先进的语音和情感编码器。实验结果表明,该方法优于仅使用文本的模型和基线模型,突显了语音特定线索在揭示隐藏毒性表达中的重要作用。

🔬 方法详解

问题定义:现有方法主要集中在文本层面的毒性检测,忽略了语音中蕴含的丰富信息,尤其是在中文这种具有复杂语调的语言中。缺乏高质量的中文语音毒性数据集,阻碍了相关研究的进展。现有方法无法有效捕捉语音中的情感色彩、语调变化等关键信息,导致毒性检测效果不佳。

核心思路:论文的核心思路是构建一个大规模、高质量的中文语音毒性数据集,并利用多模态信息(声学、语言、情感)进行毒性检测。通过融合不同模态的信息,可以更全面地理解语音中的毒性表达,提高检测的准确性和鲁棒性。

技术框架:该论文提出的多模态检测框架主要包含以下几个模块:1) 数据预处理:对原始音频数据进行清洗、降噪等处理。2) 特征提取:提取声学特征(如MFCC、语速)、语言特征(如文本转录、词性标注)和情感特征(如情感强度、情感类别)。3) 特征融合:将不同模态的特征进行融合,例如使用注意力机制或拼接等方法。4) 毒性分类:使用分类器(如SVM、神经网络)对融合后的特征进行分类,判断语音是否具有毒性。

关键创新:该论文的关键创新在于:1) 构建了ToxicTone数据集,这是目前最大的中文语音毒性数据集,为相关研究提供了数据基础。2) 提出了多模态检测框架,有效融合了声学、语言和情感特征,提高了毒性检测的准确性。3) 强调了语音特定线索在揭示隐藏毒性表达中的重要作用,为未来的研究方向提供了新的思路。

关键设计:在特征提取方面,论文使用了最先进的语音和情感编码器,例如Transformer-based的语音识别模型和情感分类模型。在特征融合方面,论文可能使用了注意力机制来动态地调整不同模态特征的权重。在损失函数方面,论文可能使用了交叉熵损失函数或Focal Loss来解决类别不平衡问题。具体的网络结构和参数设置在论文中可能没有详细描述,需要进一步查阅论文原文。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,提出的多模态方法优于仅使用文本的模型和基线模型,验证了语音特征在毒性检测中的重要性。具体的性能提升数据(如准确率、召回率、F1值)和对比基线需要在论文中查找。该研究强调了语音特定线索在揭示隐藏毒性表达中的作用。

🎯 应用场景

该研究成果可应用于在线社交平台、语音助手、智能客服等领域,用于自动检测和过滤语音中的毒性内容,营造更健康的网络环境。此外,该数据集和方法还可以用于研究不同文化背景下的毒性表达方式,促进跨文化交流和理解。未来,该研究可以扩展到其他语言和场景,为构建更安全、更友好的语音交互系统做出贡献。

📄 摘要(原文)

Despite extensive research on toxic speech detection in text, a critical gap remains in handling spoken Mandarin audio. The lack of annotated datasets that capture the unique prosodic cues and culturally specific expressions in Mandarin leaves spoken toxicity underexplored. To address this, we introduce ToxicTone -- the largest public dataset of its kind -- featuring detailed annotations that distinguish both forms of toxicity (e.g., profanity, bullying) and sources of toxicity (e.g., anger, sarcasm, dismissiveness). Our data, sourced from diverse real-world audio and organized into 13 topical categories, mirrors authentic communication scenarios. We also propose a multimodal detection framework that integrates acoustic, linguistic, and emotional features using state-of-the-art speech and emotion encoders. Extensive experiments show our approach outperforms text-only and baseline models, underscoring the essential role of speech-specific cues in revealing hidden toxic expressions.