LLMs-Integrated Automatic Hate Speech Recognition Using Controllable Text Generation Models

📄 arXiv: 2601.04654v1 📥 PDF

作者: Ryutaro Oshima, Yuya Hosoda, Youji Iiguni

分类: eess.AS, cs.AI, cs.SD

发布日期: 2026-01-08

备注: In Proceedings of the 17th Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2025)


💡 一句话要点

提出一种融合LLM的自动仇恨言论识别模型,实现转录和审查同步进行。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 仇恨言论识别 大型语言模型 自动语音识别 文本生成 课程学习

📋 核心要点

  1. 现有仇恨言论识别方法依赖于标注数据,数据量有限且难以覆盖所有类型的仇恨言论。
  2. 该方法将ASR与LLM结合,利用LLM的生成能力,并通过可控的文本生成和过滤来扩充训练数据。
  3. 实验表明,该方法在仇恨词语屏蔽准确率上优于基线,且课程学习提升了转录和审查效率。

📝 摘要(中文)

本文提出了一种利用大型语言模型(LLM)的仇恨言论自动语音识别(ASR)模型。该方法将ASR模型的编码器与LLM的解码器集成,从而能够同时进行转录和审查任务,以防止有害内容的暴露。由于带注释的仇恨言论数据集有限,因此需要对LLM进行指令微调,以使用特定token屏蔽与仇恨相关的词语。我们使用LLM和思维链(CoT)提示技术,在文化背景和示例的指导下生成文本样本,然后使用文本到语音(TTS)系统将其转换为语音样本。然而,其中一些样本包含带有仇恨相关词语的非仇恨言论样本,这会降低审查性能。本文过滤了文本分类模型正确标记为仇恨内容的样本。通过调整正确答案模型的数量阈值,我们可以控制生成数据集中的仇恨程度,从而以循序渐进的方式通过课程学习训练LLM。实验结果表明,所提出的方法对仇恨相关词语的屏蔽准确率达到58.6%,超过了先前的基线。我们还证实,课程训练有助于提高转录和审查任务的效率。

🔬 方法详解

问题定义:现有仇恨言论识别的痛点在于标注数据集的稀缺性,以及模型泛化能力不足,难以识别各种形式的仇恨言论。直接使用有限的数据训练模型容易过拟合,且难以适应新的仇恨言论表达方式。

核心思路:利用LLM强大的文本生成能力,生成包含仇恨言论的文本数据,并结合文本分类模型进行过滤,从而构建大规模、多样化的训练数据集。通过课程学习,逐步增加训练数据的难度,提升模型的鲁棒性和泛化能力。将ASR和LLM集成,实现语音转录的同时进行仇恨言论审查。

技术框架:整体框架包含以下几个主要模块:1) 基于CoT提示的LLM文本生成模块,用于生成包含仇恨言论的文本样本;2) TTS模块,将生成的文本样本转换为语音样本;3) 文本分类模型,用于过滤生成的文本样本,去除不包含仇恨言论的样本;4) ASR-LLM集成模型,将ASR的编码器与LLM的解码器连接,实现语音转录和仇恨言论审查;5) 课程学习训练策略,逐步增加训练数据的难度。

关键创新:该方法的核心创新在于:1) 利用LLM生成可控的仇恨言论数据,缓解了标注数据稀缺的问题;2) 结合文本分类模型进行数据过滤,保证了生成数据的质量;3) 采用课程学习策略,提升了模型的训练效率和性能;4) ASR-LLM集成,实现了端到端的语音转录和仇恨言论审查。

关键设计:在LLM文本生成阶段,使用CoT提示技术,并结合文化背景和示例,引导LLM生成更具针对性的仇恨言论。通过调整文本分类模型的阈值,控制生成数据集中仇恨言论的比例。ASR-LLM集成模型采用encoder-decoder结构,ASR编码器提取语音特征,LLM解码器进行文本转录和仇恨词语屏蔽。课程学习策略采用逐步增加训练数据中仇恨言论比例的方式,从易到难地训练模型。

📊 实验亮点

实验结果表明,该方法在仇恨相关词语的屏蔽准确率上达到了58.6%,显著优于之前的基线方法。同时,课程学习策略有效地提升了转录和审查任务的效率。这些结果验证了该方法在自动仇恨言论识别方面的有效性和优越性。

🎯 应用场景

该研究成果可应用于社交媒体平台、在线论坛、语音助手等场景,用于自动检测和屏蔽仇恨言论,维护网络环境的健康。通过实时审查语音内容,可以有效防止仇恨言论的传播,减少其对社会造成的负面影响。未来,该技术可进一步扩展到其他类型的有害内容检测,例如暴力、欺诈等。

📄 摘要(原文)

This paper proposes an automatic speech recognition (ASR) model for hate speech using large language models (LLMs). The proposed method integrates the encoder of the ASR model with the decoder of the LLMs, enabling simultaneous transcription and censorship tasks to prevent the exposure of harmful content. Instruction tuning of the LLM to mask hate-related words with specific tokens requires an annotated hate speech dataset, which is limited. We generate text samples using an LLM with the Chain-of-Thought (CoT) prompting technique guided by cultural context and examples and then convert them into speech samples using a text-to-speech (TTS) system. However, some of them contain non-hate speech samples with hate-related words, which degrades the censorship performance. This paper filters the samples which text classification models correctly label as hate content. By adjusting the threshold for the number of correct answer models, we can control the level of hate in the generated dataset, allowing us to train the LLMs through curriculum learning in a gradual manner. Experimental results show that the proposed method achieves a masking accuracy of 58.6\% for hate-related words, surpassing previous baselines. We also confirm that the curriculum training contributes to the efficiency of both transcription and censorship tasks.