A thorough benchmark of automatic text classification: From traditional approaches to large language models

📄 arXiv: 2504.01930v1 📥 PDF

作者: Washington Cunha, Leonardo Rocha, Marcos André Gonçalves

分类: cs.CL, cs.AI

发布日期: 2025-04-02

备注: 7 pages, 2 figures, 3 tables


💡 一句话要点

自动文本分类基准测试:从传统方法到大型语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动文本分类 大型语言模型 成本效益分析 基准测试 情感分析 主题分类 计算效率

📋 核心要点

  1. 现有自动文本分类方法,特别是大型语言模型,虽然效果好,但计算成本高昂,缺乏与传统方法成本效益的对比分析。
  2. 论文通过构建包含22个数据集的大型基准,对12种传统和最新的自动文本分类方法进行了全面的成本效益比较分析。
  3. 实验结果表明,LLM在效果上优于传统方法和SLM,但计算成本显著增加,为实际应用提供了选择建议。

📝 摘要(中文)

自动文本分类(ATC)在过去十年中取得了显著进展,特别是基于Transformer架构的小型和大型语言模型(SLM和LLM)。尽管最近的效果有所提高,但文献中仍然缺乏全面的成本效益分析,以研究这些最新方法的效果提升是否能弥补与SVM和Logistic回归等传统文本分类方法相比高得多的成本。本文的主要贡献是双重的:(i)我们对包括五个开放LLM在内的十二种传统和最新ATC解决方案的成本效益进行了科学合理的比较分析,以及(ii)一个包含22个数据集的大型基准,包括情感分析和主题分类,以及基于折叠交叉验证程序的(训练-验证-测试)分区,以及文档和代码。代码、数据和文档的发布使社区能够复制实验,并以更科学合理的方式推进该领域。我们的比较实验结果表明,LLM在有效性方面优于传统方法(平均高达26%-7.1%)和SLM(平均高达4.9%-1.9%)。然而,由于微调,LLM产生了显著更高的计算成本,平均比传统方法和SLM慢590倍和8.5倍。结果表明以下建议:(1)对于需要最佳效果并且能够承担成本的应用程序,使用LLM;(2)对于资源有限的应用程序或无法承担调整大型LLM成本的应用程序,使用Logistic回归和SVM等传统方法;(3)对于接近最佳的效果-效率权衡,使用像Roberta这样的SLM。

🔬 方法详解

问题定义:论文旨在解决自动文本分类领域中,大型语言模型(LLM)虽然效果好,但计算成本过高的问题。现有研究缺乏对LLM与传统方法(如SVM、Logistic回归)在成本效益上的全面对比分析,难以指导实际应用中模型的选择。

核心思路:论文的核心思路是通过构建一个包含多种数据集的大型基准测试,对不同类型的自动文本分类方法(包括传统方法、小型语言模型SLM和大型语言模型LLM)进行系统的性能评估和成本分析。通过量化不同方法的有效性和计算成本,为用户提供选择合适模型的依据。

技术框架:论文构建了一个包含22个数据集的基准测试,涵盖情感分析和主题分类等任务。对12种自动文本分类方法进行了评估,包括传统方法(如Logistic回归、SVM)、小型语言模型(如Roberta)和大型语言模型(如五个开源LLM)。实验采用折叠交叉验证程序划分训练集、验证集和测试集。

关键创新:论文的主要创新在于构建了一个大规模的自动文本分类基准测试,并对多种方法进行了全面的成本效益分析。以往的研究通常只关注模型的效果,而忽略了计算成本。论文的分析结果为实际应用中模型的选择提供了重要的参考依据。

关键设计:论文的关键设计包括数据集的选择和划分、评估指标的选择(主要关注有效性和计算成本)、以及实验流程的标准化。论文详细记录了实验设置和代码,方便其他研究者复现和扩展研究。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在有效性方面优于传统方法(平均高达26%-7.1%)和SLM(平均高达4.9%-1.9%)。然而,LLM的计算成本显著高于传统方法和SLM,平均慢590倍和8.5倍。研究建议,对于需要最佳效果且能承担成本的应用,使用LLM;对于资源有限的应用,使用传统方法;对于追求效果-效率平衡的应用,使用SLM。

🎯 应用场景

该研究成果可应用于各种文本分类场景,例如情感分析、垃圾邮件检测、新闻分类、客户反馈分析等。通过对比不同方法的成本效益,可以帮助用户根据实际需求和资源限制选择合适的模型,从而提高文本分类的效率和效果,降低计算成本。该研究也为未来自动文本分类方法的研究提供了基准和参考。

📄 摘要(原文)

Automatic text classification (ATC) has experienced remarkable advancements in the past decade, best exemplified by recent small and large language models (SLMs and LLMs), leveraged by Transformer architectures. Despite recent effectiveness improvements, a comprehensive cost-benefit analysis investigating whether the effectiveness gains of these recent approaches compensate their much higher costs when compared to more traditional text classification approaches such as SVMs and Logistic Regression is still missing in the literature. In this context, this work's main contributions are twofold: (i) we provide a scientifically sound comparative analysis of the cost-benefit of twelve traditional and recent ATC solutions including five open LLMs, and (ii) a large benchmark comprising {22 datasets}, including sentiment analysis and topic classification, with their (train-validation-test) partitions based on folded cross-validation procedures, along with documentation, and code. The release of code, data, and documentation enables the community to replicate experiments and advance the field in a more scientifically sound manner. Our comparative experimental results indicate that LLMs outperform traditional approaches (up to 26%-7.1% on average) and SLMs (up to 4.9%-1.9% on average) in terms of effectiveness. However, LLMs incur significantly higher computational costs due to fine-tuning, being, on average 590x and 8.5x slower than traditional methods and SLMs, respectively. Results suggests the following recommendations: (1) LLMs for applications that require the best possible effectiveness and can afford the costs; (2) traditional methods such as Logistic Regression and SVM for resource-limited applications or those that cannot afford the cost of tuning large LLMs; and (3) SLMs like Roberta for near-optimal effectiveness-efficiency trade-off.