Zero-Shot Classification of Crisis Tweets Using Instruction-Finetuned Large Language Models

📄 arXiv: 2410.00182v1 📥 PDF

作者: Emma McDaniel, Samuel Scheele, Jeff Liu

分类: cs.CL, cs.AI

发布日期: 2024-09-30

DOI: 10.1109/IHTC61819.2024.10855037


💡 一句话要点

利用指令微调的大语言模型进行危机推文的零样本分类

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 危机推文分类 零样本学习 大型语言模型 指令微调 灾害响应

📋 核心要点

  1. 灾害响应中,社交媒体帖子是重要的开源情报来源,但预训练语言模型(pre-LLM)的自然语言处理技术在危机推文数据集上的效果有待提升。
  2. 本文探索了利用指令微调的大型语言模型(LLM)在零样本学习场景下,对危机推文进行分类的可行性,无需额外训练数据。
  3. 实验结果表明,不同LLM在不同数据集上的表现差异显著,提示数据集质量对模型性能有重要影响,并分析了提供事件信息对分类效果的影响。

📝 摘要(中文)

本文评估了三种商业大语言模型(OpenAI GPT-4o、Gemini 1.5-flash-001 和 Anthropic Claude-3-5 Sonnet)在短社交媒体帖子零样本分类方面的能力。模型被要求执行两项分类任务:1)识别帖子在人道主义背景下是否具有信息性;2)对帖子与16种可能的人道主义类别的相关性进行排序并提供概率。分类的帖子来自综合危机推文数据集 CrisisBench。使用宏平均、加权平均和二元 F1 分数评估结果。通常,在没有额外信息的情况下,信息性分类任务表现更好,而对于人道主义标签分类,提供推文挖掘期间发生的事件信息可以提高性能。此外,我们发现模型在不同数据集上的表现差异显著,这引发了对数据集质量的质疑。

🔬 方法详解

问题定义:论文旨在解决危机事件中,如何快速有效地从社交媒体(特别是推特)上识别和分类相关信息的问题。现有方法,特别是预训练语言模型(pre-LLM)的NLP技术,在处理此类任务时可能存在准确率不足或需要大量标注数据的问题,限制了其在实际灾害响应中的应用。

核心思路:论文的核心思路是利用指令微调后的大型语言模型(LLM)的零样本学习能力,直接对危机推文进行分类,而无需针对特定危机事件进行额外训练。通过精心设计的提示(prompt),引导LLM理解任务目标并输出分类结果。

技术框架:整体框架包括以下步骤:1)选择合适的LLM(如GPT-4o、Gemini 1.5-flash-001、Claude-3-5 Sonnet);2)构建包含指令的提示(prompt),要求LLM执行两项任务:判断推文是否具有信息性,以及将推文分类到16个人道主义类别中;3)使用CrisisBench数据集对LLM进行评估;4)分析不同LLM在不同数据集上的表现,并探讨提供事件信息对分类效果的影响。

关键创新:论文的关键创新在于探索了指令微调的LLM在危机推文零样本分类中的应用潜力。与传统方法相比,该方法无需大量标注数据,可以快速适应新的危机事件。此外,论文还分析了不同LLM和不同数据集对分类效果的影响,为后续研究提供了有价值的参考。

关键设计:论文的关键设计包括:1)使用包含指令的提示(prompt)来引导LLM执行分类任务;2)设计了两项分类任务:信息性判断和人道主义类别分类;3)使用宏平均、加权平均和二元F1分数等指标来评估分类效果;4)分析了提供事件信息对人道主义类别分类效果的影响。

📊 实验亮点

实验结果表明,不同LLM在CrisisBench数据集上的表现差异显著,表明数据集质量对模型性能有重要影响。对于人道主义标签分类,提供事件信息可以提高分类效果。信息性分类任务在没有额外信息的情况下表现更好。这些发现为后续研究提供了有价值的参考。

🎯 应用场景

该研究成果可应用于灾害响应、人道主义援助等领域。通过自动分类危机推文,可以帮助救援人员快速定位需要帮助的人群、了解灾情发展态势,从而更有效地开展救援工作。此外,该方法还可以应用于舆情监控、公共安全等领域,及时发现和应对突发事件。

📄 摘要(原文)

Social media posts are frequently identified as a valuable source of open-source intelligence for disaster response, and pre-LLM NLP techniques have been evaluated on datasets of crisis tweets. We assess three commercial large language models (OpenAI GPT-4o, Gemini 1.5-flash-001 and Anthropic Claude-3-5 Sonnet) capabilities in zero-shot classification of short social media posts. In one prompt, the models are asked to perform two classification tasks: 1) identify if the post is informative in a humanitarian context; and 2) rank and provide probabilities for the post in relation to 16 possible humanitarian classes. The posts being classified are from the consolidated crisis tweet dataset, CrisisBench. Results are evaluated using macro, weighted, and binary F1-scores. The informative classification task, generally performed better without extra information, while for the humanitarian label classification providing the event that occurred during which the tweet was mined, resulted in better performance. Further, we found that the models have significantly varying performance by dataset, which raises questions about dataset quality.