CLSGen: A Dual-Head Fine-Tuning Framework for Joint Probabilistic Classification and Verbalized Explanation

📄 arXiv: 2604.11801v1 📥 PDF

作者: WonJin Yoon, Kangyu Zhu, Ian Bulovic, Autumn Sehy, Yanjun Gao, Dmitriy Dligach, Majid Afshar, Timothy A. Miller

分类: cs.CL

发布日期: 2026-04-13


💡 一句话要点

CLSGen:用于联合概率分类和文本解释的双头微调框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可解释性 二元分类 微调框架 概率估计

📋 核心要点

  1. 现有LLM在提供可靠的概率估计方面存在不足,且微调易导致灾难性遗忘和语言崩溃,影响了解释能力。
  2. CLSGen框架通过新的模型架构、训练方法和数据构建策略,实现稳健的概率估计,同时保留了解释生成能力。
  3. 实验结果表明,CLSGen在分类指标(AUROC和F1-score)上优于现有基线,并能生成高质量的解释。

📝 摘要(中文)

随着大型语言模型(LLM)的最新进展,人们越来越有兴趣应用这些模型来解决复杂和具有挑战性的问题。现代LLM能够处理长上下文并生成文本解释,在解决实际应用方面具有巨大的潜力。然而,在部署LLM进行实际决策时,一个关键障碍是它们无法提供可靠的定量概率。虽然使用传统的判别目标(类似于仅编码器模型)对LLM进行特定任务的微调可以产生概率估计,但这通常会导致灾难性的遗忘和语言崩溃。因此,模型失去了生成解释的能力,严重损害了其可解释性和可用性。为了解决这个挑战,我们提出CLSGen,一种新颖的LLM微调框架,专为二元分类任务而设计。CLSGen框架包含一种新的模型架构、训练方法和数据构建策略,以实现稳健的概率估计,而不会牺牲模型固有的解释生成能力。跨多个基准数据集的实验结果表明,使用CLSGen微调的模型在分类指标(AUROC和F1-score)方面优于现有的基线。关于解释,结果表明预测标签和生成的理由之间具有很强的对齐性,以及很高的可读性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在二元分类任务中,既要提供准确的分类概率,又要生成可信的文本解释的难题。现有方法,如直接微调LLM,往往导致模型在生成解释能力上的“语言崩溃”,或者无法提供可靠的概率估计。

核心思路:CLSGen的核心思路是采用一种双头(Dual-Head)的微调框架,一个头负责分类概率的预测,另一个头负责生成文本解释。通过精心设计的训练策略和数据构建方法,使得两个头能够协同工作,既保证分类的准确性,又保留LLM的解释能力。

技术框架:CLSGen框架包含三个主要组成部分:1) 新的模型架构,采用双头结构,一个分类头用于预测概率,一个生成头用于生成解释;2) 训练方法,设计了特殊的损失函数,鼓励分类头和生成头之间的一致性;3) 数据构建策略,通过特定的prompt工程,构建包含分类标签和对应解释的数据集。

关键创新:CLSGen的关键创新在于其双头架构和协同训练策略。与传统的单头微调方法不同,CLSGen将分类和解释生成任务解耦,避免了两者之间的相互干扰。通过特殊的损失函数,鼓励分类头和生成头之间的一致性,从而提高模型的整体性能。

关键设计:CLSGen的关键设计包括:1) 分类头采用线性层,直接预测二元分类的概率;2) 生成头采用标准的自回归语言模型结构,生成文本解释;3) 损失函数包含分类损失、生成损失和一致性损失,其中一致性损失用于衡量分类头和生成头之间的一致性。具体的损失函数形式和权重需要根据具体的任务进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,CLSGen在多个基准数据集上,AUROC和F1-score均优于现有基线。更重要的是,CLSGen生成的解释与预测标签具有很强的对齐性,并且具有很高的可读性,有效解决了传统微调方法导致的“语言崩溃”问题。具体提升幅度未知,但定性分析表明解释质量显著提升。

🎯 应用场景

CLSGen框架可应用于医疗诊断、金融风控、法律判决等需要可解释性决策的领域。通过提供分类概率和文本解释,帮助用户理解模型的决策过程,增强信任感,并为模型的改进提供依据。未来可扩展到多分类任务和更复杂的解释生成场景。

📄 摘要(原文)

With the recent progress of Large Language Models (LLMs), there is a growing interest in applying these models to solve complex and challenging problems. Modern LLMs, capable of processing long contexts and generating verbalized explanations, offer significant potential in addressing real-world applications. However, a critical hurdle in deploying LLMs for practical decision-making is their inability to provide reliable, quantitative probabilities. While task-specific fine-tuning of LLMs using traditional discriminative objectives (similar to encoder-only models) can yield probability estimates, this often leads to catastrophic forgetting and linguistic collapse. Consequently, the model loses its ability to generate explanations, severely undermining its interpretability and usability. To address this challenge, we propose CLSGen, a novel LLM fine-tuning framework designed for binary classification tasks. The CLSGen framework encompasses a new model architecture, training methodology, and data construction strategy to enable robust probability estimation without sacrificing the model's inherent explanation-generation capabilities. Experimental results across multiple benchmark datasets demonstrate that models fine-tuned with CLSGen outperform existing baselines in classification metrics (AUROC and F1-score). Regarding explanation, the results showed strong alignment between predicted labels and generated justifications, as well as high readability.