GenCLS++: Pushing the Boundaries of Generative Classification in LLMs Through Comprehensive SFT and RL Studies Across Diverse Datasets
作者: Mingqian He, Fei Zhao, Chonggang Lu, Ziyan Liu, Yue Wang, Haofu Qian
分类: cs.CL
发布日期: 2025-04-28
💡 一句话要点
GenCLS++:通过综合SFT和RL研究,突破LLM生成式分类的界限
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生成式分类 大型语言模型 监督微调 强化学习 文本分类 上下文学习 提示工程
📋 核心要点
- 现有文本分类方法忽略了LLM的生成能力,且缺乏对训练和推理提示之间相互作用的深入研究。
- GenCLS++框架联合优化SFT和RL,并系统探索多种策略维度,以提升LLM的生成式分类性能。
- 实验表明,GenCLS++在多个数据集上显著提升了分类准确率,尤其是在公共数据集上提升明显。
📝 摘要(中文)
文本分类是机器学习中的一项基本任务,在许多领域都起着至关重要的作用。随着大型语言模型(LLM)的快速发展,特别是通过强化学习(RL)的发展,对更有能力的判别器的需求日益增长。因此,分类方面的进步对于提高LLM的整体能力变得越来越重要。传统的判别方法将文本映射到标签,但忽略了LLM固有的生成优势。生成式分类通过提示模型直接输出标签来解决这个问题。然而,现有的研究仍然依赖于简单的SFT,很少探究训练和推理提示之间的相互作用,也没有工作系统地利用RL进行生成式文本分类器,并将SFT、RL和推理时提示统一在一个框架中。我们通过GenCLS++弥合了这一差距,GenCLS++是一个联合优化SFT和RL的框架,同时系统地探索了五个高级策略维度——上下文学习变体、类别定义、显式不确定性标签、语义无关的数字标签和基于困惑度的解码——在训练和推理过程中。在SFT“策略预热”之后,我们应用带有简单规则奖励的RL,产生了可观的额外收益。在七个数据集上,相对于朴素的SFT基线,GenCLS++实现了平均3.46%的准确率提升;在公共数据集上,这一提升上升到4.00%。值得注意的是,与受益于显式思考过程的推理密集型任务不同,我们发现分类任务在没有这种推理步骤的情况下表现更好。这些对显式推理作用的见解为未来的LLM应用提供了有价值的指导。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在文本分类任务中,如何有效利用其生成能力的问题。现有方法主要依赖判别式模型或简单的监督微调(SFT),忽略了LLM的生成潜力,并且缺乏对训练和推理提示之间关系的深入研究,以及强化学习(RL)在生成式分类中的应用。
核心思路:论文的核心思路是利用LLM的生成能力,将其直接用于输出类别标签,并通过结合监督微调(SFT)和强化学习(RL)来优化模型的生成式分类性能。通过系统地探索不同的训练和推理提示策略,以及利用简单的规则奖励进行RL训练,从而提升分类准确率。
技术框架:GenCLS++框架包含两个主要阶段:首先,使用SFT对LLM进行“策略预热”,使其初步具备生成分类标签的能力。然后,利用RL对SFT模型进行进一步优化,通过规则奖励来鼓励模型生成正确的标签。在训练和推理过程中,框架还探索了五个高级策略维度:上下文学习变体、类别定义、显式不确定性标签、语义无关的数字标签和基于困惑度的解码。
关键创新:GenCLS++的关键创新在于:1) 提出了一个统一的框架,将SFT、RL和推理时提示策略结合起来,用于优化LLM的生成式分类性能。2) 系统地探索了多个高级策略维度,并研究了它们对分类性能的影响。3) 发现对于分类任务,显式推理步骤可能并不总是必要的,这与推理密集型任务不同。
关键设计:在RL阶段,论文使用了简单的规则奖励,例如,如果模型生成了正确的标签,则给予正向奖励,否则给予负向奖励。此外,论文还探索了不同的上下文学习示例数量、类别定义方式(例如,使用文本描述或数字编码)、是否使用显式不确定性标签(例如,“不确定”)等策略。基于困惑度的解码用于选择最可能的标签序列。
🖼️ 关键图片
📊 实验亮点
GenCLS++在七个数据集上实现了平均3.46%的准确率提升,相对于朴素的SFT基线。在公共数据集上,这一提升达到了4.00%。实验还表明,与推理密集型任务不同,分类任务在没有显式推理步骤的情况下表现更好。这些结果表明,GenCLS++能够有效提升LLM的生成式分类性能。
🎯 应用场景
GenCLS++的研究成果可应用于各种文本分类场景,例如情感分析、主题分类、垃圾邮件检测等。该方法能够提升LLM在这些任务中的性能,并为未来的LLM应用提供指导,尤其是在如何有效利用LLM的生成能力方面。此外,该研究对于开发更高效、更准确的文本分类系统具有重要的实际价值。
📄 摘要(原文)
As a fundamental task in machine learning, text classification plays a crucial role in many areas. With the rapid scaling of Large Language Models (LLMs), particularly through reinforcement learning (RL), there is a growing need for more capable discriminators. Consequently, advances in classification are becoming increasingly vital for enhancing the overall capabilities of LLMs. Traditional discriminative methods map text to labels but overlook LLMs' intrinsic generative strengths. Generative classification addresses this by prompting the model to directly output labels. However, existing studies still rely on simple SFT alone, seldom probing the interplay between training and inference prompts, and no work has systematically leveraged RL for generative text classifiers and unified SFT, RL, and inference-time prompting in one framework. We bridge this gap with GenCLS++, a framework that jointly optimizes SFT and RL while systematically exploring five high-level strategy dimensions-in-context learning variants, category definitions, explicit uncertainty labels, semantically irrelevant numeric labels, and perplexity-based decoding-during both training and inference. After an SFT "policy warm-up," we apply RL with a simple rule-based reward, yielding sizable extra gains. Across seven datasets, GenCLS++ achieves an average accuracy improvement of 3.46% relative to the naive SFT baseline; on public datasets, this improvement rises to 4.00%. Notably, unlike reasoning-intensive tasks that benefit from explicit thinking processes, we find that classification tasks perform better without such reasoning steps. These insights into the role of explicit reasoning provide valuable guidance for future LLM applications.