TEII: Think, Explain, Interact and Iterate with Large Language Models to Solve Cross-lingual Emotion Detection

📄 arXiv: 2405.17129v2 📥 PDF

作者: Long Cheng, Qihao Shao, Christine Zhao, Sheng Bi, Gina-Anne Levow

分类: cs.CL, cs.AI

发布日期: 2024-05-27 (更新: 2024-07-02)

备注: Proceedings of the 13th Workshop on Computational Approaches to Subjectivity, Sentiment, & Social Media Analysis (ACL 2024)


💡 一句话要点

提出TEII框架,利用大语言模型解决跨语言情感检测问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨语言情感检测 大语言模型 Agentic Workflow 迭代学习 可解释性 多语言处理 情感分析

📋 核心要点

  1. 跨语言情感检测面临数据稀缺和语言差异挑战,现有方法难以有效捕捉不同语言的情感细微差别。
  2. 论文提出TEII框架,通过大语言模型的推理、解释、交互和迭代能力,提升跨语言情感检测的性能。
  3. 实验结果表明,TEII框架优于传统方法,并在EXALT共享任务中取得第二名,F1值超过基线0.16。

📝 摘要(中文)

本文针对跨语言情感检测问题,旨在分析全球趋势、公众舆论和社会现象。我们参与了跨语言情感检测可解释性(EXALT)共享任务,在情感检测子任务的评估集上取得了0.6046的F1分数。我们的系统性能超过基线0.16 F1分数以上,在所有参赛系统中排名第二。我们对基于大语言模型(LLM)的模型进行了微调、零样本学习和少样本学习实验,并对非LLM技术进行了基于嵌入的BiLSTM和KNN实验。此外,我们还引入了两种新方法:多迭代Agentic工作流和多二元分类器Agentic工作流。我们发现,基于LLM的方法在多语言情感检测方面表现良好。此外,集成所有实验模型比任何单一方法都产生了更高的F1分数。

🔬 方法详解

问题定义:跨语言情感检测旨在识别文本在不同语言中表达的情感。现有方法,如基于嵌入的方法,难以有效处理不同语言之间的语义差异,且对数据量需求较高。基于传统机器学习的方法在跨语言场景下泛化能力较弱。

核心思路:论文的核心思路是利用大语言模型(LLM)强大的语言理解和生成能力,通过迭代式的推理、解释和交互,逐步提升跨语言情感检测的准确性。通过Agentic Workflow,模拟人类解决问题的过程,让LLM在多轮交互中不断学习和优化。

技术框架:整体框架包含以下几个主要模块:1) LLM推理模块:利用LLM对输入文本进行情感推理,生成初步的情感判断结果。2) 解释模块:要求LLM解释其推理过程,提供判断依据。3) 交互模块:根据解释结果,人工或自动进行干预,提供反馈或指导。4) 迭代模块:将反馈信息融入LLM,进行下一轮推理,不断优化结果。论文提出了两种Agentic Workflow:多迭代Agentic Workflow和多二元分类器Agentic Workflow。

关键创新:论文的关键创新在于将Agentic Workflow引入跨语言情感检测,通过迭代式的推理、解释和交互,充分利用LLM的知识和推理能力。多迭代Agentic Workflow通过多次迭代优化情感判断结果,多二元分类器Agentic Workflow将情感检测问题分解为多个二元分类问题,降低了问题的复杂度。

关键设计:在实验中,论文采用了多种LLM,如GPT-3和GPT-4。针对不同的LLM,采用了不同的微调策略和提示工程方法。在多迭代Agentic Workflow中,迭代次数是一个重要的参数,需要根据具体任务进行调整。在多二元分类器Agentic Workflow中,如何有效地分解情感类别是一个关键问题。损失函数方面,采用了交叉熵损失函数。

📊 实验亮点

实验结果表明,TEII框架在跨语言情感检测任务中取得了显著的性能提升。在EXALT共享任务中,该系统取得了0.6046的F1分数,超过基线0.16 F1分数以上,排名第二。集成所有实验模型比任何单一方法都产生了更高的F1分数,验证了集成学习的有效性。消融实验分析了不同模块对性能的影响,证明了Agentic Workflow的有效性。

🎯 应用场景

该研究成果可应用于舆情监控、跨文化交流、国际市场分析等领域。通过准确识别不同语言文本中的情感,可以帮助企业和政府更好地了解全球公众的观点和态度,从而做出更明智的决策。未来,该技术还可以应用于智能客服、情感聊天机器人等领域,提升人机交互的自然性和情感化。

📄 摘要(原文)

Cross-lingual emotion detection allows us to analyze global trends, public opinion, and social phenomena at scale. We participated in the Explainability of Cross-lingual Emotion Detection (EXALT) shared task, achieving an F1-score of 0.6046 on the evaluation set for the emotion detection sub-task. Our system outperformed the baseline by more than 0.16 F1-score absolute, and ranked second amongst competing systems. We conducted experiments using fine-tuning, zero-shot learning, and few-shot learning for Large Language Model (LLM)-based models as well as embedding-based BiLSTM and KNN for non-LLM-based techniques. Additionally, we introduced two novel methods: the Multi-Iteration Agentic Workflow and the Multi-Binary-Classifier Agentic Workflow. We found that LLM-based approaches provided good performance on multilingual emotion detection. Furthermore, ensembles combining all our experimented models yielded higher F1-scores than any single approach alone.