Large Language Models For Text Classification: Case Study And Comprehensive Review

📄 arXiv: 2501.08457v1 📥 PDF

作者: Arina Kostina, Marios D. Dikaiakos, Dimosthenis Stefanidis, George Pallis

分类: cs.CL, cs.LG

发布日期: 2025-01-14


💡 一句话要点

对比LLM与传统模型在文本分类任务中的性能,揭示不同提示策略的影响。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本分类 提示工程 性能评估 推理时间

📋 核心要点

  1. 现有文本分类方法在复杂场景下表现不足,大型语言模型(LLM)的潜力有待挖掘。
  2. 通过对比不同LLM和传统模型在多类和二元分类任务中的表现,分析不同提示策略的影响。
  3. 实验表明,LLM在复杂分类任务中表现优异,但推理时间较长,而简单ML模型在二元分类中更具优势。

📝 摘要(中文)

本文评估了大型语言模型(LLM)在数据分类中的潜力,并将其性能与最先进的深度学习和机器学习模型进行了比较。研究涵盖两个不同的分类场景:1)基于在线发布的职位评论对员工工作地点进行分类(多类分类);2)将新闻文章分类为虚假或真实(二元分类)。分析包括各种大小、量化和架构不同的语言模型。探讨了不同提示技术的影响,并基于加权F1分数评估模型。此外,还考察了每个语言模型的性能(F1分数)和时间(推理响应时间)之间的权衡,以便更细致地了解每个模型的实际适用性。研究表明,模型响应因提示策略而异。结果表明,LLM,特别是Llama3和GPT-4,在复杂分类任务(如多类分类)中可以优于传统方法,但代价是更长的推理时间。相比之下,更简单的ML模型在更简单的二元分类任务中提供了更好的性能与时间之间的权衡。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在文本分类任务中的性能,并与传统的深度学习和机器学习模型进行比较。现有的传统方法在处理复杂的多类分类任务时可能表现不足,并且缺乏对不同LLM以及提示策略的系统性评估。

核心思路:论文的核心思路是通过实验对比不同大小、量化和架构的LLM在两个不同的文本分类场景下的性能,并分析不同提示策略对模型性能的影响。通过评估性能(F1分数)和时间(推理响应时间)之间的权衡,从而更全面地了解每个模型的实际适用性。

技术框架:论文的整体框架包括以下几个主要阶段:1)选择两个具有代表性的文本分类任务:员工工作地点分类(多类分类)和新闻文章真假分类(二元分类);2)选择一系列不同大小、量化和架构的LLM以及传统的深度学习和机器学习模型;3)设计不同的提示策略,并将其应用于LLM;4)使用加权F1分数评估所有模型的性能;5)分析性能和推理时间之间的权衡。

关键创新:论文的关键创新在于对LLM在文本分类任务中的性能进行了全面的评估,并深入分析了不同提示策略对模型性能的影响。此外,论文还考察了性能和推理时间之间的权衡,从而为实际应用提供了更具参考价值的结论。

关键设计:论文的关键设计包括:1)选择具有代表性的多类和二元分类任务;2)选择具有代表性的LLM,包括Llama3和GPT-4等;3)设计不同的提示策略,例如零样本提示、少样本提示等;4)使用加权F1分数作为评估指标,以考虑不同类别的样本数量不平衡问题;5)详细记录每个模型的推理时间,以便进行性能和时间之间的权衡分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在复杂的多类分类任务中,Llama3和GPT-4等LLM可以优于传统的机器学习模型,但推理时间较长。在简单的二元分类任务中,传统的机器学习模型在性能和时间之间具有更好的权衡。研究还发现,不同的提示策略对LLM的性能有显著影响。

🎯 应用场景

该研究成果可应用于各种文本分类场景,例如情感分析、主题分类、垃圾邮件检测等。通过选择合适的LLM和提示策略,可以提高文本分类的准确性和效率。此外,该研究还可以为LLM在自然语言处理领域的应用提供参考。

📄 摘要(原文)

Unlocking the potential of Large Language Models (LLMs) in data classification represents a promising frontier in natural language processing. In this work, we evaluate the performance of different LLMs in comparison with state-of-the-art deep-learning and machine-learning models, in two different classification scenarios: i) the classification of employees' working locations based on job reviews posted online (multiclass classification), and 2) the classification of news articles as fake or not (binary classification). Our analysis encompasses a diverse range of language models differentiating in size, quantization, and architecture. We explore the impact of alternative prompting techniques and evaluate the models based on the weighted F1-score. Also, we examine the trade-off between performance (F1-score) and time (inference response time) for each language model to provide a more nuanced understanding of each model's practical applicability. Our work reveals significant variations in model responses based on the prompting strategies. We find that LLMs, particularly Llama3 and GPT-4, can outperform traditional methods in complex classification tasks, such as multiclass classification, though at the cost of longer inference times. In contrast, simpler ML models offer better performance-to-time trade-offs in simpler binary classification tasks.