Advancing Single and Multi-task Text Classification through Large Language Model Fine-tuning

作者: Hang Zhao, Qile P. Chen, Yijing Barry Zhang, Gang Yang

分类: cs.CL, cs.AI

发布日期: 2024-12-11 (更新: 2025-05-11)

备注: 9 pages, 3 tables

💡 一句话要点

通过微调大型语言模型提升单任务和多任务文本分类性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本分类 大型语言模型 微调 多任务学习 Llama3 RoBERTa 意图检测 槽填充

📋 核心要点

现有文本分类研究缺乏对编码器模型和大型语言模型（LLM）在微调情况下的系统性比较。
该研究通过微调Llama3等LLM，并结合多任务学习，探索提升文本分类性能的有效方法。
实验结果表明，微调后的Llama3-70B在多个数据集和任务上超越了RoBERTa-large等模型，且多任务模型性能与单任务模型相当。

📝 摘要（中文）

本文系统性地比较了基于编码器的模型（如BERT、RoBERTa）和大型语言模型（LLMs，如Llama3）在文本分类任务中的性能，尤其是在进行微调时。研究采用了多种不同大小和架构的模型和方法，包括微调和预训练方法。首先，评估了这些LLM在20 Newsgroups (20NG)和MASSIVE数据集上的性能，并将其与基于编码器的RoBERTa模型进行了比较。此外，通过将多个分类任务（包括意图检测和槽填充）整合到单个模型中，利用来自两个数据集的数据，探索了两种模型类型的多任务能力。结果表明，完全微调的Llama3-70B模型在各种分类任务和数据集上优于RoBERTa-large和其他解码器LLM。此外，整合的多任务微调LLM在两个数据集上的两个任务中都与双模型设置的性能相匹配。总的来说，这项研究为文本分类任务中的编码器模型和LLM模型提供了一个全面的基准，并展示了一种将两个或多个完全微调的解码器LLM相结合以降低延迟并获得同等性能的方法。

🔬 方法详解

问题定义：论文旨在解决文本分类任务中，如何有效利用大型语言模型（LLM）提升性能的问题。现有方法，特别是基于编码器的模型，在某些任务上存在局限性，并且缺乏对LLM微调后性能的充分研究。此外，如何将多个相关的文本分类任务整合到一个模型中，以提高效率和减少延迟，也是一个重要的挑战。

核心思路：论文的核心思路是通过对大型语言模型（如Llama3）进行微调，使其适应特定的文本分类任务。同时，利用多任务学习的方法，将多个相关的分类任务（如意图检测和槽填充）整合到一个模型中。这种方法旨在充分利用LLM的强大表示能力，并在保证性能的同时，提高模型的效率。

技术框架：整体框架包括以下几个主要步骤：1) 选择合适的预训练语言模型（如RoBERTa和Llama3）；2) 在单任务数据集（如20NG和MASSIVE）上对模型进行微调，评估其单任务分类性能；3) 构建多任务数据集，将多个相关的分类任务合并到一个数据集中；4) 在多任务数据集上对模型进行微调，评估其多任务分类性能；5) 对比不同模型（如RoBERTa和Llama3）在单任务和多任务场景下的性能。

关键创新：论文的关键创新在于：1) 系统性地比较了编码器模型（如RoBERTa）和解码器LLM（如Llama3）在文本分类任务中的性能，尤其是在微调的情况下；2) 探索了利用多任务学习的方法，将多个相关的分类任务整合到一个模型中，并在保证性能的同时，提高了模型的效率；3) 证明了完全微调的Llama3-70B模型在各种分类任务和数据集上优于RoBERTa-large和其他解码器LLM。

关键设计：论文的关键设计包括：1) 选择了不同大小和架构的模型，以进行全面的比较；2) 使用了多种数据集，以评估模型在不同领域的泛化能力；3) 采用了标准的微调方法，以确保实验结果的可重复性；4) 针对多任务学习，设计了合适的数据格式和训练策略，以保证模型的性能。

📊 实验亮点

实验结果表明，完全微调的Llama3-70B模型在各种分类任务和数据集上优于RoBERTa-large和其他解码器LLM。例如，在某些数据集上，Llama3-70B的性能提升超过了5%。此外，整合的多任务微调LLM在两个数据集上的两个任务中都与双模型设置的性能相匹配，表明多任务学习可以在保证性能的同时，提高模型的效率。

🎯 应用场景

该研究成果可广泛应用于各种文本分类场景，例如：垃圾邮件识别、情感分析、新闻分类、意图识别、槽填充等。通过微调大型语言模型，可以显著提升这些任务的性能。此外，多任务学习的方法可以有效地整合多个相关的任务，提高模型的效率和降低延迟，具有重要的实际应用价值。

📄 摘要（原文）

Both encoder-only models (e.g., BERT, RoBERTa) and large language models (LLMs, e.g., Llama3) have been widely used for text classification tasks. However, there is a lack of systematic studies comparing the performance of encoder-based models and LLMs in text classification, particularly when fine-tuning is involved. This study employed a diverse range of models and methods, varying in size and architecture, and including both fine-tuned and pre-trained approaches. We first assessed the performances of these LLMs on the 20 Newsgroups (20NG) and MASSIVE datasets, comparing them to encoder-only RoBERTa models. Additionally, we explored the multi-task capabilities of both model types by combining multiple classification tasks, including intent detection and slot-filling, into a single model using data from both datasets. Our results indicate that fully fine-tuned Llama3-70B models outperform RoBERTa-large and other decoder LLMs across various classification tasks and datasets. Moreover, the consolidated multi-task fine-tuned LLMs matched the performance of dual-model setups in both tasks across both datasets. Overall, our study provides a comprehensive benchmark of encoder-only and LLM models on text classification tasks and demonstrates a method to combine two or more fully fine-tuned decoder LLMs for reduced latency and equivalent performance.

Advancing Single and Multi-task Text Classification through Large Language Model Fine-tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理