Emo Pillars: Knowledge Distillation to Support Fine-Grained Context-Aware and Context-Less Emotion Classification
作者: Alexander Shvets
分类: cs.CL
发布日期: 2025-04-23
💡 一句话要点
Emo Pillars:知识蒸馏支持细粒度上下文感知和无上下文情感分类
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情感分类 知识蒸馏 大型语言模型 数据合成 上下文感知
📋 核心要点
- 现有情感分析数据集缺乏上下文信息,且情感类别有限,难以满足细粒度情感理解的需求。
- 提出一种基于LLM的数据合成流程,利用Mistral-7b生成大规模上下文相关和无上下文情感分类数据集。
- Emo Pillars模型在多个情感分类任务上达到SOTA性能,验证了数据集的有效性和模型的领域适应性。
📝 摘要(中文)
情感分析数据集通常缺乏情感表达的上下文信息,这对于理解情感至关重要,并且类别数量有限。大型语言模型(LLMs)如GPT-4存在过度预测情感且资源消耗过大的问题。本文设计了一个基于LLM的数据合成流程,并利用Mistral-7b生成训练样本,用于训练更易于访问、轻量级的BERT类型编码器模型。研究重点在于扩大样本的语义多样性,并提出将生成过程置于叙事语料库中,以生成具有独特上下文的、以故事人物为中心的非重复话语,涵盖28种情感类别。通过在450个GPU小时内运行70万次推理,贡献了一个包含10万个上下文相关和30万个无上下文示例的数据集,以覆盖两种场景。使用该数据集对预训练编码器进行微调,得到了多个Emo Pillars模型。实验表明,Emo Pillars模型在针对特定任务(如GoEmotions、ISEAR、IEMOCAP和EmoContext)进行调整时,具有很强的领域适应性,在前三个数据集上达到了SOTA性能。此外,还验证了数据集,进行了统计分析和人工评估,证实了在话语多样化(中性类别除外)和上下文个性化方面的成功,同时也指出了需要改进管道中对分类法外标签的处理。
🔬 方法详解
问题定义:情感分析任务面临两个主要问题:一是现有数据集缺乏足够的上下文信息,导致模型难以准确理解情感;二是现有数据集的情感类别数量有限,无法满足细粒度情感分类的需求。此外,大型语言模型虽然性能强大,但存在过度预测情感和资源消耗过大的问题。
核心思路:本文的核心思路是利用大型语言模型(Mistral-7b)生成大规模、多样化的情感分类数据集,然后使用知识蒸馏的方法,将大型模型的知识迁移到轻量级的BERT类型编码器模型中。通过这种方式,既可以解决数据集不足的问题,又可以降低模型的计算成本。
技术框架:整体框架包括数据合成和模型训练两个阶段。数据合成阶段,首先利用LLM生成上下文相关和无上下文的情感分类样本,并着重扩大样本的语义多样性。模型训练阶段,使用生成的数据集对预训练的BERT类型编码器进行微调,得到Emo Pillars模型。
关键创新:主要创新点在于数据合成流程,该流程通过将生成过程置于叙事语料库中,生成具有独特上下文的、以故事人物为中心的非重复话语,从而显著提高了数据集的语义多样性和上下文相关性。此外,该方法还考虑了28种情感类别,覆盖了更广泛的情感范围。
关键设计:在数据合成阶段,使用了基于LLM的生成模型,并设计了特定的prompt来控制生成样本的情感类别和上下文信息。在模型训练阶段,使用了标准的交叉熵损失函数,并对预训练的BERT类型编码器进行了微调。数据集包含10万个上下文相关和30万个无上下文示例。
🖼️ 关键图片
📊 实验亮点
Emo Pillars模型在GoEmotions、ISEAR和IEMOCAP三个情感分类任务上达到了SOTA性能,证明了该方法的有效性。统计分析和人工评估表明,生成的数据集具有较高的话语多样性和上下文相关性。在450 GPU 小时内完成了 70 万次推理,生成了包含 40 万条数据的数据集。
🎯 应用场景
该研究成果可应用于各种需要细粒度情感理解的场景,例如舆情监控、智能客服、个性化推荐、心理健康分析等。通过提供更准确的情感分析结果,可以提升用户体验,改善决策质量,并为相关领域的研究提供支持。
📄 摘要(原文)
Most datasets for sentiment analysis lack context in which an opinion was expressed, often crucial for emotion understanding, and are mainly limited by a few emotion categories. Foundation large language models (LLMs) like GPT-4 suffer from over-predicting emotions and are too resource-intensive. We design an LLM-based data synthesis pipeline and leverage a large model, Mistral-7b, for the generation of training examples for more accessible, lightweight BERT-type encoder models. We focus on enlarging the semantic diversity of examples and propose grounding the generation into a corpus of narratives to produce non-repetitive story-character-centered utterances with unique contexts over 28 emotion classes. By running 700K inferences in 450 GPU hours, we contribute with the dataset of 100K contextual and also 300K context-less examples to cover both scenarios. We use it for fine-tuning pre-trained encoders, which results in several Emo Pillars models. We show that Emo Pillars models are highly adaptive to new domains when tuned to specific tasks such as GoEmotions, ISEAR, IEMOCAP, and EmoContext, reaching the SOTA performance on the first three. We also validate our dataset, conducting statistical analysis and human evaluation, and confirm the success of our measures in utterance diversification (although less for the neutral class) and context personalization, while pointing out the need for improved handling of out-of-taxonomy labels within the pipeline.