Distilling Knowledge from Large Language Models: A Concept Bottleneck Model for Hate and Counter Speech Recognition

作者: Roberto Labadie-Tamayo, Djordje Slijepčević, Xihui Chen, Adrian Jaques Böck, Andreas Babic, Liz Freimann, Christiane Atzmüller Matthias Zeppelzauer

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-07-30

备注: 33 pages, 10 figures, This is a preprint of a manuscript accepted for publication in Information Processing & Management (Elsevier)

💡 一句话要点

提出基于概念瓶颈模型的仇恨和反仇恨言论识别方法，提升透明性和性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 仇恨言论检测 反仇恨言论 概念瓶颈模型 可解释性AI 大型语言模型

📋 核心要点

现有仇恨言论检测模型通常是黑盒模型，缺乏透明性和可解释性，难以理解其决策过程。
论文提出“言论概念瓶颈模型”（SCBM），利用形容词作为可解释的概念瓶颈，将文本映射到抽象的形容词表示。
实验结果表明，SCBM在多个数据集上优于现有方法，并能提供局部和全局的可解释性，且与Transformer嵌入融合后性能进一步提升。

📝 摘要（中文）

社交媒体上仇恨言论的迅速增加对社会产生了前所未有的影响，使得自动检测此类内容的方法变得至关重要。与以往的黑盒模型不同，我们提出了一种新颖的透明方法，用于自动仇恨和反仇恨言论识别，即“言论概念瓶颈模型”（SCBM），它使用形容词作为人类可解释的瓶颈概念。SCBM利用大型语言模型（LLM）将输入文本映射到基于抽象形容词的表示，然后将其发送到轻量级分类器以进行下游任务。在跨越多种语言和平台（例如，Twitter，Reddit，YouTube）的五个基准数据集上，SCBM实现了0.69的平均宏F1分数，优于文献中最近报告的五个数据集中的四个数据集的结果。除了高识别准确率外，SCBM还提供了高水平的局部和全局可解释性。此外，将我们基于形容词的概念表示与Transformer嵌入融合，在所有数据集上的平均性能提高了1.8％，表明所提出的表示捕获了互补信息。我们的结果表明，基于形容词的概念表示可以作为仇恨和反仇恨言论识别的紧凑，可解释和有效的编码。通过调整形容词，我们的方法也可以应用于其他NLP任务。

🔬 方法详解

问题定义：论文旨在解决仇恨和反仇恨言论的自动识别问题。现有方法，特别是基于深度学习的黑盒模型，虽然在性能上有所提升，但缺乏可解释性，难以理解模型做出判断的原因，限制了其在实际场景中的应用。

核心思路：论文的核心思路是引入“概念瓶颈”，将输入文本通过大型语言模型映射到一组人类可解释的形容词表示。这些形容词作为中间概念，既能保留文本的关键语义信息，又能提供模型决策过程的可解释性。通过这种方式，模型不再是一个黑盒，而是可以理解和验证的。

技术框架：SCBM包含以下主要模块：1) 大型语言模型（LLM）：用于将输入文本编码成向量表示。2) 概念瓶颈层：将LLM的输出映射到一组预定义的形容词的概率分布。每个形容词代表一个概念。3) 轻量级分类器：基于形容词的概率分布进行仇恨/反仇恨言论的分类。整体流程是：文本输入 -> LLM编码 -> 概念瓶颈层（生成形容词概率） -> 分类器 -> 输出分类结果。

关键创新：该方法最重要的创新点在于引入了“概念瓶颈”的思想，将黑盒模型转化为一个可解释的模型。与直接使用文本嵌入进行分类不同，SCBM使用形容词作为中间表示，使得模型的决策过程更加透明。此外，该方法还探索了将概念表示与Transformer嵌入融合，进一步提升性能。

关键设计：论文的关键设计包括：1) 形容词的选择：选择合适的形容词集合至关重要，需要覆盖仇恨言论和反仇恨言论的关键语义特征。2) 概念瓶颈层的实现：可以使用不同的方法将LLM的输出映射到形容词概率，例如使用线性层或注意力机制。3) 损失函数的设计：除了分类损失外，还可以引入正则化项，鼓励形容词表示的稀疏性，提高可解释性。4) 轻量级分类器的选择：可以使用简单的线性模型或决策树，以保持整体模型的可解释性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SCBM在五个基准数据集上取得了优异的性能，平均宏F1分数为0.69，优于现有方法。在四个数据集上，SCBM超过了文献中最近报告的结果。此外，将形容词概念表示与Transformer嵌入融合后，性能平均提升了1.8%，证明了该概念表示能够捕获互补信息。

🎯 应用场景

该研究成果可应用于社交媒体平台的内容审核、舆情监控、在线社区管理等领域。通过提供可解释的仇恨言论识别结果，可以帮助人工审核员更高效地处理违规内容，并为用户提供更安全、更友好的在线环境。未来，该方法还可以扩展到其他自然语言处理任务，例如情感分析、文本摘要等。

📄 摘要（原文）

The rapid increase in hate speech on social media has exposed an unprecedented impact on society, making automated methods for detecting such content important. Unlike prior black-box models, we propose a novel transparent method for automated hate and counter speech recognition, i.e., "Speech Concept Bottleneck Model" (SCBM), using adjectives as human-interpretable bottleneck concepts. SCBM leverages large language models (LLMs) to map input texts to an abstract adjective-based representation, which is then sent to a light-weight classifier for downstream tasks. Across five benchmark datasets spanning multiple languages and platforms (e.g., Twitter, Reddit, YouTube), SCBM achieves an average macro-F1 score of 0.69 which outperforms the most recently reported results from the literature on four out of five datasets. Aside from high recognition accuracy, SCBM provides a high level of both local and global interpretability. Furthermore, fusing our adjective-based concept representation with transformer embeddings, leads to a 1.8% performance increase on average across all datasets, showing that the proposed representation captures complementary information. Our results demonstrate that adjective-based concept representations can serve as compact, interpretable, and effective encodings for hate and counter speech recognition. With adapted adjectives, our method can also be applied to other NLP tasks.

Distilling Knowledge from Large Language Models: A Concept Bottleneck Model for Hate and Counter Speech Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理