Advancing Single and Multi-task Text Classification through Large Language Model Fine-tuning

📄 arXiv: 2412.08587v2 📥 PDF

作者: Hang Zhao, Qile P. Chen, Yijing Barry Zhang, Gang Yang

分类: cs.CL, cs.AI

发布日期: 2024-12-11 (更新: 2025-05-11)

备注: 9 pages, 3 tables


💡 一句话要点

通过微调大型语言模型提升单任务和多任务文本分类性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本分类 大型语言模型 微调 多任务学习 Llama3 RoBERTa 意图检测 槽填充

📋 核心要点

  1. 现有文本分类研究缺乏对编码器模型和大型语言模型(LLM)在微调情况下的系统性比较。
  2. 该研究通过微调Llama3等LLM,并结合多任务学习,探索提升文本分类性能的有效方法。
  3. 实验结果表明,微调后的Llama3-70B在多个数据集和任务上超越了RoBERTa-large等模型,且多任务模型性能与单任务模型相当。

📝 摘要(中文)

本文系统性地比较了基于编码器的模型(如BERT、RoBERTa)和大型语言模型(LLMs,如Llama3)在文本分类任务中的性能,尤其是在进行微调时。研究采用了多种不同大小和架构的模型和方法,包括微调和预训练方法。首先,评估了这些LLM在20 Newsgroups (20NG)和MASSIVE数据集上的性能,并将其与基于编码器的RoBERTa模型进行了比较。此外,通过将多个分类任务(包括意图检测和槽填充)整合到单个模型中,利用来自两个数据集的数据,探索了两种模型类型的多任务能力。结果表明,完全微调的Llama3-70B模型在各种分类任务和数据集上优于RoBERTa-large和其他解码器LLM。此外,整合的多任务微调LLM在两个数据集上的两个任务中都与双模型设置的性能相匹配。总的来说,这项研究为文本分类任务中的编码器模型和LLM模型提供了一个全面的基准,并展示了一种将两个或多个完全微调的解码器LLM相结合以降低延迟并获得同等性能的方法。

🔬 方法详解

问题定义:论文旨在解决文本分类任务中,如何有效利用大型语言模型(LLM)提升性能的问题。现有方法,特别是基于编码器的模型,在某些任务上存在局限性,并且缺乏对LLM微调后性能的充分研究。此外,如何将多个相关的文本分类任务整合到一个模型中,以提高效率和减少延迟,也是一个重要的挑战。

核心思路:论文的核心思路是通过对大型语言模型(如Llama3)进行微调,使其适应特定的文本分类任务。同时,利用多任务学习的方法,将多个相关的分类任务(如意图检测和槽填充)整合到一个模型中。这种方法旨在充分利用LLM的强大表示能力,并在保证性能的同时,提高模型的效率。

技术框架:整体框架包括以下几个主要步骤:1) 选择合适的预训练语言模型(如RoBERTa和Llama3);2) 在单任务数据集(如20NG和MASSIVE)上对模型进行微调,评估其单任务分类性能;3) 构建多任务数据集,将多个相关的分类任务合并到一个数据集中;4) 在多任务数据集上对模型进行微调,评估其多任务分类性能;5) 对比不同模型(如RoBERTa和Llama3)在单任务和多任务场景下的性能。

关键创新:论文的关键创新在于:1) 系统性地比较了编码器模型(如RoBERTa)和解码器LLM(如Llama3)在文本分类任务中的性能,尤其是在微调的情况下;2) 探索了利用多任务学习的方法,将多个相关的分类任务整合到一个模型中,并在保证性能的同时,提高了模型的效率;3) 证明了完全微调的Llama3-70B模型在各种分类任务和数据集上优于RoBERTa-large和其他解码器LLM。

关键设计:论文的关键设计包括:1) 选择了不同大小和架构的模型,以进行全面的比较;2) 使用了多种数据集,以评估模型在不同领域的泛化能力;3) 采用了标准的微调方法,以确保实验结果的可重复性;4) 针对多任务学习,设计了合适的数据格式和训练策略,以保证模型的性能。

📊 实验亮点

实验结果表明,完全微调的Llama3-70B模型在各种分类任务和数据集上优于RoBERTa-large和其他解码器LLM。例如,在某些数据集上,Llama3-70B的性能提升超过了5%。此外,整合的多任务微调LLM在两个数据集上的两个任务中都与双模型设置的性能相匹配,表明多任务学习可以在保证性能的同时,提高模型的效率。

🎯 应用场景

该研究成果可广泛应用于各种文本分类场景,例如:垃圾邮件识别、情感分析、新闻分类、意图识别、槽填充等。通过微调大型语言模型,可以显著提升这些任务的性能。此外,多任务学习的方法可以有效地整合多个相关的任务,提高模型的效率和降低延迟,具有重要的实际应用价值。

📄 摘要(原文)

Both encoder-only models (e.g., BERT, RoBERTa) and large language models (LLMs, e.g., Llama3) have been widely used for text classification tasks. However, there is a lack of systematic studies comparing the performance of encoder-based models and LLMs in text classification, particularly when fine-tuning is involved. This study employed a diverse range of models and methods, varying in size and architecture, and including both fine-tuned and pre-trained approaches. We first assessed the performances of these LLMs on the 20 Newsgroups (20NG) and MASSIVE datasets, comparing them to encoder-only RoBERTa models. Additionally, we explored the multi-task capabilities of both model types by combining multiple classification tasks, including intent detection and slot-filling, into a single model using data from both datasets. Our results indicate that fully fine-tuned Llama3-70B models outperform RoBERTa-large and other decoder LLMs across various classification tasks and datasets. Moreover, the consolidated multi-task fine-tuned LLMs matched the performance of dual-model setups in both tasks across both datasets. Overall, our study provides a comprehensive benchmark of encoder-only and LLM models on text classification tasks and demonstrates a method to combine two or more fully fine-tuned decoder LLMs for reduced latency and equivalent performance.