Distilling Knowledge from Large Language Models: A Concept Bottleneck Model for Hate and Counter Speech Recognition

📄 arXiv: 2508.08274v1 📥 PDF

作者: Roberto Labadie-Tamayo, Djordje Slijepčević, Xihui Chen, Adrian Jaques Böck, Andreas Babic, Liz Freimann, Christiane Atzmüller Matthias Zeppelzauer

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-07-30

备注: 33 pages, 10 figures, This is a preprint of a manuscript accepted for publication in Information Processing & Management (Elsevier)


💡 一句话要点

提出基于概念瓶颈模型的仇恨和反仇恨言论识别方法,提升透明性和性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 仇恨言论检测 反仇恨言论 概念瓶颈模型 可解释性AI 大型语言模型

📋 核心要点

  1. 现有仇恨言论检测模型通常是黑盒模型,缺乏透明性和可解释性,难以理解其决策过程。
  2. 论文提出“言论概念瓶颈模型”(SCBM),利用形容词作为可解释的概念瓶颈,将文本映射到抽象的形容词表示。
  3. 实验结果表明,SCBM在多个数据集上优于现有方法,并能提供局部和全局的可解释性,且与Transformer嵌入融合后性能进一步提升。

📝 摘要(中文)

社交媒体上仇恨言论的迅速增加对社会产生了前所未有的影响,使得自动检测此类内容的方法变得至关重要。与以往的黑盒模型不同,我们提出了一种新颖的透明方法,用于自动仇恨和反仇恨言论识别,即“言论概念瓶颈模型”(SCBM),它使用形容词作为人类可解释的瓶颈概念。SCBM利用大型语言模型(LLM)将输入文本映射到基于抽象形容词的表示,然后将其发送到轻量级分类器以进行下游任务。在跨越多种语言和平台(例如,Twitter,Reddit,YouTube)的五个基准数据集上,SCBM实现了0.69的平均宏F1分数,优于文献中最近报告的五个数据集中的四个数据集的结果。除了高识别准确率外,SCBM还提供了高水平的局部和全局可解释性。此外,将我们基于形容词的概念表示与Transformer嵌入融合,在所有数据集上的平均性能提高了1.8%,表明所提出的表示捕获了互补信息。我们的结果表明,基于形容词的概念表示可以作为仇恨和反仇恨言论识别的紧凑,可解释和有效的编码。通过调整形容词,我们的方法也可以应用于其他NLP任务。

🔬 方法详解

问题定义:论文旨在解决仇恨和反仇恨言论的自动识别问题。现有方法,特别是基于深度学习的黑盒模型,虽然在性能上有所提升,但缺乏可解释性,难以理解模型做出判断的原因,限制了其在实际场景中的应用。

核心思路:论文的核心思路是引入“概念瓶颈”,将输入文本通过大型语言模型映射到一组人类可解释的形容词表示。这些形容词作为中间概念,既能保留文本的关键语义信息,又能提供模型决策过程的可解释性。通过这种方式,模型不再是一个黑盒,而是可以理解和验证的。

技术框架:SCBM包含以下主要模块:1) 大型语言模型(LLM):用于将输入文本编码成向量表示。2) 概念瓶颈层:将LLM的输出映射到一组预定义的形容词的概率分布。每个形容词代表一个概念。3) 轻量级分类器:基于形容词的概率分布进行仇恨/反仇恨言论的分类。整体流程是:文本输入 -> LLM编码 -> 概念瓶颈层(生成形容词概率) -> 分类器 -> 输出分类结果。

关键创新:该方法最重要的创新点在于引入了“概念瓶颈”的思想,将黑盒模型转化为一个可解释的模型。与直接使用文本嵌入进行分类不同,SCBM使用形容词作为中间表示,使得模型的决策过程更加透明。此外,该方法还探索了将概念表示与Transformer嵌入融合,进一步提升性能。

关键设计:论文的关键设计包括:1) 形容词的选择:选择合适的形容词集合至关重要,需要覆盖仇恨言论和反仇恨言论的关键语义特征。2) 概念瓶颈层的实现:可以使用不同的方法将LLM的输出映射到形容词概率,例如使用线性层或注意力机制。3) 损失函数的设计:除了分类损失外,还可以引入正则化项,鼓励形容词表示的稀疏性,提高可解释性。4) 轻量级分类器的选择:可以使用简单的线性模型或决策树,以保持整体模型的可解释性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SCBM在五个基准数据集上取得了优异的性能,平均宏F1分数为0.69,优于现有方法。在四个数据集上,SCBM超过了文献中最近报告的结果。此外,将形容词概念表示与Transformer嵌入融合后,性能平均提升了1.8%,证明了该概念表示能够捕获互补信息。

🎯 应用场景

该研究成果可应用于社交媒体平台的内容审核、舆情监控、在线社区管理等领域。通过提供可解释的仇恨言论识别结果,可以帮助人工审核员更高效地处理违规内容,并为用户提供更安全、更友好的在线环境。未来,该方法还可以扩展到其他自然语言处理任务,例如情感分析、文本摘要等。

📄 摘要(原文)

The rapid increase in hate speech on social media has exposed an unprecedented impact on society, making automated methods for detecting such content important. Unlike prior black-box models, we propose a novel transparent method for automated hate and counter speech recognition, i.e., "Speech Concept Bottleneck Model" (SCBM), using adjectives as human-interpretable bottleneck concepts. SCBM leverages large language models (LLMs) to map input texts to an abstract adjective-based representation, which is then sent to a light-weight classifier for downstream tasks. Across five benchmark datasets spanning multiple languages and platforms (e.g., Twitter, Reddit, YouTube), SCBM achieves an average macro-F1 score of 0.69 which outperforms the most recently reported results from the literature on four out of five datasets. Aside from high recognition accuracy, SCBM provides a high level of both local and global interpretability. Furthermore, fusing our adjective-based concept representation with transformer embeddings, leads to a 1.8% performance increase on average across all datasets, showing that the proposed representation captures complementary information. Our results demonstrate that adjective-based concept representations can serve as compact, interpretable, and effective encodings for hate and counter speech recognition. With adapted adjectives, our method can also be applied to other NLP tasks.