LLMs-Integrated Automatic Hate Speech Recognition Using Controllable Text Generation Models

📄 arXiv: 2601.04654v1 📥 PDF

作者: Ryutaro Oshima, Yuya Hosoda, Youji Iiguni

分类: eess.AS, cs.AI, cs.SD

发布日期: 2026-01-08

备注: In Proceedings of the 17th Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2025)


💡 一句话要点

提出LLM集成的自动仇恨言论识别模型,通过可控文本生成提升审查性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 仇恨言论识别 大型语言模型 自动语音识别 可控文本生成 课程学习

📋 核心要点

  1. 现有仇恨言论识别数据集有限,且直接使用LLM进行审查缺乏可控性,导致性能受限。
  2. 利用LLM生成可控的仇恨言论数据,并结合课程学习策略,逐步提升模型对仇恨言论的识别能力。
  3. 实验表明,该方法在仇恨词汇掩码准确率上优于基线,并验证了课程学习对转录和审查效率的贡献。

📝 摘要(中文)

本文提出了一种基于大型语言模型(LLM)的自动语音识别(ASR)模型,用于仇恨言论检测。该方法将ASR模型的编码器与LLM的解码器集成,实现同步转录和审查任务,以防止有害内容的暴露。由于带标注的仇恨言论数据集有限,本文利用LLM和思维链(CoT)提示技术,结合文化背景和示例生成文本样本,并使用文本到语音(TTS)系统将其转换为语音样本。然而,部分样本包含带有仇恨相关词汇的非仇恨言论,降低了审查性能。本文通过文本分类模型过滤这些样本,并调整正确答案模型的数量阈值,从而控制生成数据集中仇恨内容的程度,实现LLM的课程学习。实验结果表明,该方法对仇恨相关词汇的掩码准确率达到58.6%,超过了现有基线。同时验证了课程学习有助于提高转录和审查任务的效率。

🔬 方法详解

问题定义:现有仇恨言论识别任务面临数据稀缺的挑战,特别是带有标注的语音数据。直接使用LLM进行仇恨言论审查,缺乏对生成内容的有效控制,容易引入噪声数据,影响审查性能。此外,如何平衡转录准确率和审查效果也是一个难题。

核心思路:本文的核心思路是利用LLM生成可控的仇恨言论数据,并采用课程学习的方式训练模型。通过控制生成数据集中仇恨内容的比例,逐步提升模型对仇恨言论的识别和审查能力。同时,将ASR模型的编码器与LLM的解码器集成,实现同步转录和审查,提高效率。

技术框架:该方法主要包含以下几个模块:1) 基于LLM和CoT提示的文本生成模块,用于生成包含仇恨言论的文本样本。2) 文本分类模块,用于过滤生成的文本样本,去除不包含仇恨言论的样本。3) 文本到语音(TTS)转换模块,将过滤后的文本样本转换为语音样本。4) ASR模型与LLM集成的转录和审查模块,实现同步转录和审查功能。5) 课程学习模块,通过调整生成数据集中仇恨内容的比例,逐步训练LLM。

关键创新:该方法的主要创新点在于:1) 提出了一种基于LLM和CoT提示的可控文本生成方法,能够生成包含特定仇恨言论的文本样本。2) 采用文本分类模型过滤生成样本,提高了数据集的质量。3) 引入课程学习策略,逐步提升模型对仇恨言论的识别和审查能力。4) 将ASR模型的编码器与LLM的解码器集成,实现了同步转录和审查。

关键设计:在文本生成阶段,使用了CoT提示技术,并结合文化背景和示例,引导LLM生成更具针对性的仇恨言论。在文本分类阶段,通过调整正确答案模型的数量阈值,控制生成数据集中仇恨内容的比例。在课程学习阶段,逐步增加生成数据集中仇恨内容的比例,使模型能够逐步适应更复杂的仇恨言论识别任务。损失函数方面,可能采用了交叉熵损失函数,用于优化LLM的参数。

📊 实验亮点

实验结果表明,该方法在仇恨词汇掩码准确率上达到了58.6%,显著优于之前的基线方法。同时,实验还验证了课程学习策略的有效性,通过逐步增加训练数据集中仇恨内容的比例,提高了模型的转录和审查效率。这些结果表明,该方法在自动仇恨言论识别方面具有显著的优势。

🎯 应用场景

该研究成果可应用于在线社交平台、语音助手、智能客服等领域,用于自动检测和过滤仇恨言论,营造更健康的网络环境。通过提高仇恨言论识别的准确率和效率,可以有效减少有害信息的传播,保护用户免受网络欺凌和歧视。未来,该技术还可以扩展到其他类型的有害内容检测,如虚假信息、煽动性言论等。

📄 摘要(原文)

This paper proposes an automatic speech recognition (ASR) model for hate speech using large language models (LLMs). The proposed method integrates the encoder of the ASR model with the decoder of the LLMs, enabling simultaneous transcription and censorship tasks to prevent the exposure of harmful content. Instruction tuning of the LLM to mask hate-related words with specific tokens requires an annotated hate speech dataset, which is limited. We generate text samples using an LLM with the Chain-of-Thought (CoT) prompting technique guided by cultural context and examples and then convert them into speech samples using a text-to-speech (TTS) system. However, some of them contain non-hate speech samples with hate-related words, which degrades the censorship performance. This paper filters the samples which text classification models correctly label as hate content. By adjusting the threshold for the number of correct answer models, we can control the level of hate in the generated dataset, allowing us to train the LLMs through curriculum learning in a gradual manner. Experimental results show that the proposed method achieves a masking accuracy of 58.6\% for hate-related words, surpassing previous baselines. We also confirm that the curriculum training contributes to the efficiency of both transcription and censorship tasks.