Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate

📄 arXiv: 2501.17703v4 📥 PDF

作者: Yubo Wang, Xiang Yue, Wenhu Chen

分类: cs.CL

发布日期: 2025-01-29 (更新: 2025-03-29)


💡 一句话要点

提出批判微调(CFT),通过学习批判而非模仿提升语言模型推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 批判微调 语言模型 推理能力 监督学习 批判性思维

📋 核心要点

  1. 现有监督微调(SFT)方法侧重于模仿正确答案,忽略了批判性思维和深度分析,限制了模型推理能力的提升。
  2. 论文提出批判微调(CFT)方法,训练模型识别和批判错误答案,从而学习更深入的推理逻辑和知识。
  3. 实验表明,CFT在数学推理任务上显著优于SFT,且在多种模型和数据集上表现出良好的泛化能力和鲁棒性。

📝 摘要(中文)

监督微调(SFT)通常用于训练语言模型模仿给定指令的标注回复。本文提出批判微调(CFT),一种比SFT更有效的推理任务方法。CFT并非简单模仿正确回复,而是训练模型批判有噪声的回复,灵感来源于人类学习过程中强调的批判性思维、深度分析和细致理解——这些特质常被标准SFT忽略。为了验证CFT的有效性,我们构建了多个批判数据集(例如,WebInstruct、MetaMath、NuminaMath),其中GPT-4o作为教师生成([查询; 有噪声的回复],批判)形式的批判。在这些数据集上的实验表明,CFT在六个数学推理基准测试中始终优于SFT 4-10%,并且在包括Qwen2.5、Qwen2.5-Math和DeepSeek-Math在内的不同基础模型上有效。值得注意的是,我们的模型Qwen2.5-Math-CFT仅需在8 x H100上训练1小时,使用5万个示例,但在大多数基准测试中匹配或优于Qwen2.5-Math-Instruct等强大的竞争对手,后者使用超过200万个样本。此外,它匹配了SimpleRL的性能,后者是DeepSeek-r1的复制品,训练计算量高出140倍。在IF_Eval和MT-Bench上的实验进一步表明,CFT可以显著增强模型的一般生成和指令遵循能力,大大优于Qwen2.5-Math-Instruct。消融研究表明,CFT对有噪声的回复来源和教师批判模型具有鲁棒性。这些发现表明,CFT提供了一种更有效的替代方案来提升语言模型的推理能力。

🔬 方法详解

问题定义:现有的大语言模型微调方法,特别是监督微调(SFT),主要依赖于模仿学习,即让模型学习模仿标注的正确答案。这种方法的痛点在于,模型可能只是简单地记忆答案,而没有真正理解问题背后的逻辑和推理过程,导致在面对新的、稍微不同的问题时表现不佳。此外,SFT容易受到标注数据质量的影响,如果标注数据存在错误或噪声,模型也会学习到错误的知识。

核心思路:论文的核心思路是借鉴人类学习过程中批判性思维的重要性,提出批判微调(CFT)方法。CFT不是简单地让模型模仿正确答案,而是训练模型去识别和批判错误的答案,从而迫使模型更深入地分析问题,理解错误的原因,并学习如何避免这些错误。通过这种方式,模型可以学习到更鲁棒、更泛化的推理能力。

技术框架:CFT的整体框架包括以下几个主要步骤:1) 构建批判数据集,包含问题、有噪声的回复以及对该回复的批判;2) 使用批判数据集对预训练语言模型进行微调,目标是让模型能够生成高质量的批判;3) 在推理阶段,模型可以先生成一个初步的回复,然后对该回复进行自我批判,并根据批判结果进行改进,最终得到更准确的答案。

关键创新:CFT最重要的技术创新点在于,它改变了传统的微调范式,从模仿学习转向了批判学习。与SFT相比,CFT更加注重培养模型的批判性思维和深度分析能力,从而提升模型的推理能力和泛化能力。此外,CFT还提出了一种新的数据构建方法,即使用大型语言模型(如GPT-4o)作为教师来生成批判,从而降低了数据标注的成本。

关键设计:在数据构建方面,论文使用了GPT-4o来生成批判,并对生成的批判进行了过滤和筛选,以保证数据质量。在模型训练方面,论文使用了标准的交叉熵损失函数,并采用了一些常用的正则化技术,如dropout和权重衰减。在推理阶段,论文探索了不同的自我批判策略,如多次迭代批判和基于置信度的批判。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,CFT在多个数学推理基准测试中显著优于SFT,提升幅度达到4-10%。Qwen2.5-Math-CFT仅使用少量数据(5万个示例)和较短的训练时间(1小时),就能达到甚至超过使用大量数据训练的Qwen2.5-Math-Instruct和SimpleRL等模型的性能。此外,CFT还能显著提升模型在IF_Eval和MT-Bench等通用任务上的表现。

🎯 应用场景

批判微调(CFT)具有广泛的应用前景,可用于提升各种语言模型的推理、问答和代码生成能力。尤其适用于对准确性要求高的领域,如数学、科学、金融等。通过CFT,可以训练出更可靠、更智能的AI系统,辅助人类进行决策和问题解决。

📄 摘要(原文)

Supervised Fine-Tuning (SFT) is commonly used to train language models to imitate annotated responses for given instructions. In this paper, we propose Critique Fine-Tuning (CFT), a method more effective than SFT for reasoning tasks. Instead of simply imitating correct responses, CFT trains models to critique noisy responses, inspired by human learning processes that emphasize critical thinking, deeper analysis, and nuanced understanding - traits often overlooked by standard SFT. To validate the effectiveness of CFT, we construct multiple critique datasets (e.g., WebInstruct, MetaMath, NuminaMath), where GPT-4o serves as the teacher to generate critiques in the form of ([query; noisy response], critique). Experiments on these datasets demonstrate that CFT consistently outperforms SFT by 4-10% across six mathematical reasoning benchmarks, and is effective across different base models including Qwen2.5, Qwen2.5-Math, and DeepSeek-Math. Notably, our model Qwen2.5-Math-CFT only requires 1 hour of training on 8 x H100 over the 50K examples, yet matches or outperforms strong competitors like Qwen2.5-Math-Instruct on most benchmarks, which use over 2M samples. Moreover, it matches the performance of SimpleRL, which is a DeepSeek-r1 replication trained with 140 x more compute. Experiments on IF_Eval and MT-Bench further demonstrate that CFT can significantly enhance the model's general generation and instruction-following capabilities, outperforming the Qwen2.5-Math-Instruct by a large margin. Ablation studies show that CFT is robust to noisy response sources and teacher critique models. These findings highlight that CFT offers a more effective alternative to advance the reasoning of language models.