Few-shot text-based emotion detection
作者: Teodor-George Marchitan, Claudiu Creanga, Liviu P. Dinu
分类: cs.CL
发布日期: 2025-07-08
💡 一句话要点
利用大语言模型和少样本学习进行文本情感检测,并在Emakhuwa语料上取得最佳效果
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情感检测 少样本学习 大语言模型 低资源语言 跨语言学习
📋 核心要点
- 现有文本情感检测方法在低资源语料上表现不佳,缺乏对不同语言文化背景的适应性。
- 采用少样本学习范式,利用大语言模型的知识迁移能力,减少对大规模标注数据的依赖。
- 实验结果表明,该方法在Emakhuwa语料上取得了显著效果,F1-macro值排名第一。
📝 摘要(中文)
本文介绍了Unibuc - NLP团队参加SemEval 2025 Workshop, Task 11(弥合文本情感检测的差距)的方法。我们主要关注使用大型语言模型(Gemini、Qwen、DeepSeek)进行实验,采用少样本提示或微调策略。在多标签情感检测赛道(track A)中,我们的最终系统在英语子集上获得了0.7546的F1-macro值(在96支队伍中排名第26),在葡萄牙语(莫桑比克)子集上获得了0.1727的F1-macro值(在36支队伍中排名第35),在Emakhuwa子集上获得了0.325的F1-macro值(在31支队伍中排名第1)。
🔬 方法详解
问题定义:论文旨在解决文本情感检测任务,特别是在低资源语言(如Emakhuwa语)上的情感识别问题。现有方法在这些语言上由于缺乏足够的标注数据而表现不佳,难以有效捕捉情感细微差别。此外,不同语言和文化背景下的情感表达方式存在差异,通用模型难以直接迁移应用。
核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大泛化能力和知识迁移能力,通过少样本学习(few-shot learning)的方式,使模型能够快速适应新的语言和情感类别。通过精心设计的prompt或微调,引导LLMs理解和识别目标语言中的情感。
技术框架:整体框架包括数据预处理、模型选择、prompt设计/微调和评估四个主要阶段。首先,对原始文本数据进行清洗和格式化。然后,选择合适的LLM作为基础模型,例如Gemini、Qwen或DeepSeek。接下来,设计有效的prompt,引导LLM进行情感分类,或者使用少量标注数据对LLM进行微调。最后,使用F1-macro等指标评估模型在不同语言子集上的性能。
关键创新:该方法的主要创新在于将少样本学习与大型语言模型相结合,有效解决了低资源语言情感检测问题。通过prompt工程或微调,充分利用了LLM的预训练知识,减少了对大规模标注数据的需求。此外,该方法在Emakhuwa语料上的优异表现证明了其跨语言情感检测的潜力。
关键设计:论文中关键的设计包括:1) 选择合适的LLM,考虑其规模、性能和API可用性;2) 设计有效的prompt,例如使用自然语言描述情感类别和示例;3) 如果进行微调,则需要选择合适的学习率、batch size和训练epochs;4) 针对多标签情感检测任务,需要选择合适的损失函数,例如binary cross-entropy loss。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在Emakhuwa语料上取得了显著的性能提升,F1-macro值达到0.325,在所有参赛队伍中排名第一。在英语子集上,F1-macro值为0.7546,排名第26。这些结果表明,基于大语言模型和少样本学习的方法在低资源语言情感检测方面具有巨大的潜力。
🎯 应用场景
该研究成果可应用于低资源语言的情感分析,例如舆情监控、用户反馈分析和智能客服等领域。通过快速适应新的语言和文化背景,可以为全球用户提供更加个性化和精准的情感服务。此外,该方法还可以推广到其他自然语言处理任务,例如文本分类、命名实体识别等。
📄 摘要(原文)
This paper describes the approach of the Unibuc - NLP team in tackling the SemEval 2025 Workshop, Task 11: Bridging the Gap in Text-Based Emotion Detection. We mainly focused on experiments using large language models (Gemini, Qwen, DeepSeek) with either few-shot prompting or fine-tuning. With our final system, for the multi-label emotion detection track (track A), we got an F1-macro of $0.7546$ (26/96 teams) for the English subset, $0.1727$ (35/36 teams) for the Portuguese (Mozambican) subset and $0.325$ (\textbf{1}/31 teams) for the Emakhuwa subset.