The Challenge of Teaching Reasoning to LLMs Without RL or Distillation

📄 arXiv: 2507.09850v3 📥 PDF

作者: Wei Du, Branislav Kisacanin, George Armstrong, Shubham Toshniwal, Ivan Moshkov, Alexan Ayrapetyan, Sadegh Mahdavi, Dan Zhao, Shizhe Diao, Dragan Masulovic, Marius Stanean, Advaith Avadhanam, Max Wang, Ashmit Dutta, Shitij Govil, Sri Yanamandara, Mihir Tandon, Sriram Ananthakrishnan, Vedant Rathi, David Zhang, Joonseok Kang, Leon Luo, Titu Andreescu, Boris Ginsburg, Igor Gitman

分类: cs.AI

发布日期: 2025-07-14 (更新: 2025-07-16)

备注: Accepted at the Second AI for Math Workshop at the 42nd International Conference on Machine Learning (ICML 2025)


💡 一句话要点

仅用少量高质量CoT样本,即可显著提升基座模型的推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 链式思考 推理能力 少量样本学习 微调 知识蒸馏 提示工程

📋 核心要点

  1. 现有方法依赖强化学习或知识蒸馏提升LLM推理能力,但成本高昂,且依赖更强大的模型。
  2. 本文探索仅通过少量高质量CoT样本微调基座模型,以诱导其产生长链式思考,提升推理能力。
  3. 实验表明,仅用20个高质量CoT样本微调,即可使基座模型性能超越更大的指令微调模型。

📝 摘要(中文)

本文研究了在不使用强化学习或知识蒸馏的情况下,如何提升大型语言模型(LLMs)的推理能力。尽管已有研究表明,通过强化学习或从更强大的模型(如DeepSeek-R1)中蒸馏,基座模型可以获得推理能力,但本文探索了仅通过提示或少量微调,能否在基座模型中诱导出长链式思考(CoT)。研究发现,仅使用推理模型 exttt{QwQ-32B-Preview}的20个长CoT示例,对基座模型 exttt{Qwen2.5-32B}进行轻微微调,其性能就超过了更大的模型 exttt{Qwen2.5-Math-72B-Instruct}。此外,本文还探索了使用来自非推理模型和人工标注者的CoT数据,并结合提示工程、多轮编辑和结构指导,但效果均不如推理模型生成的CoT数据。分析表明,专家CoT数据具有难以复制的潜在质量。本文分析了影响推理蒸馏的关键数据属性,如问题难度、多样性和答案长度。尽管仍存在挑战,但研究者对精心策划的人工CoT数据(即使数量很少)能够激活基座模型的推理行为持乐观态度。本文发布了人工标注数据集,并邀请进一步研究,以探究小规模推理监督如此有效的原因。

🔬 方法详解

问题定义:现有提升LLM推理能力的方法,如强化学习和知识蒸馏,通常需要大量的计算资源和数据,或者依赖于更强大的教师模型。这限制了这些方法在资源受限场景下的应用,并且可能引入教师模型的偏差。本文旨在探索一种更轻量级、更高效的方法,即仅通过少量高质量的CoT样本,提升基座模型的推理能力。

核心思路:本文的核心思路是,高质量的CoT样本蕴含了专家推理的知识和策略,通过对基座模型进行微调,可以使模型学习到这些知识和策略,从而提升其推理能力。这种方法避免了对大量数据和计算资源的需求,也减少了对教师模型的依赖。

技术框架:本文的技术框架主要包括以下几个步骤:1) 选择一个基座模型,如 exttt{Qwen2.5-32B};2) 收集少量高质量的CoT样本,这些样本来自推理能力较强的模型,如 exttt{QwQ-32B-Preview};3) 使用这些CoT样本对基座模型进行轻微的微调;4) 在推理任务上评估微调后的模型性能。此外,本文还探索了使用来自非推理模型和人工标注者的CoT数据,并结合提示工程、多轮编辑和结构指导,以进一步提升模型性能。

关键创新:本文最重要的技术创新点在于,证明了仅用少量高质量的CoT样本,就可以显著提升基座模型的推理能力,而无需依赖强化学习或知识蒸馏。这为低成本、高效地提升LLM推理能力提供了一种新的思路。

关键设计:本文的关键设计包括:1) 选择高质量的CoT样本,这些样本来自推理能力较强的模型,并且具有清晰的推理步骤;2) 使用轻微的微调策略,避免过度拟合CoT样本,保持模型的泛化能力;3) 探索不同的CoT数据来源和增强方法,以进一步提升模型性能。具体参数设置和损失函数等细节未在摘要中明确提及,属于未知信息。

📊 实验亮点

实验结果表明,仅使用推理模型 exttt{QwQ-32B-Preview}的20个长CoT示例,对基座模型 exttt{Qwen2.5-32B}进行轻微微调,其性能就超过了更大的模型 exttt{Qwen2.5-Math-72B-Instruct}。这表明,少量高质量的CoT样本可以有效提升基座模型的推理能力,并且优于直接使用更大规模的指令微调模型。

🎯 应用场景

该研究成果可应用于各种需要复杂推理能力的场景,例如数学问题求解、代码生成、知识问答等。通过少量高质量的CoT样本,可以快速提升基座模型的推理能力,降低开发成本,加速LLM在实际应用中的部署。未来,该方法有望应用于更多领域,例如医疗诊断、金融分析等。

📄 摘要(原文)

Reasoning-capable language models achieve state-of-the-art performance in diverse complex tasks by generating long, explicit Chain-of-Thought (CoT) traces. While recent works show that base models can acquire such reasoning traces via reinforcement learning or distillation from stronger models like DeepSeek-R1, previous works demonstrate that even short CoT prompting without fine-tuning is able to improve reasoning. We ask whether long CoT can be induced in a base model using only prompting or minimal tuning. Using just 20 long CoT examples from the reasoning model \texttt{QwQ-32B-Preview}, we lightly fine-tune the base model \texttt{Qwen2.5-32B}. The resulting model outperforms the much larger \texttt{Qwen2.5-Math-72B-Instruct}, showing that a handful of high-quality examples can unlock strong reasoning capabilities. We further explore using CoT data from non-reasoning models and human annotators, enhanced with prompt engineering, multi-pass editing, and structural guidance. However, neither matches the performance of reasoning model traces, suggesting that certain latent qualities of expert CoT are difficult to replicate. We analyze key properties of reasoning data, such as problem difficulty, diversity, and answer length, that influence reasoning distillation. While challenges remain, we are optimistic that carefully curated human-written CoT, even in small quantities, can activate reasoning behaviors in base models. We release our human-authored dataset across refinement stages and invite further investigation into what makes small-scale reasoning supervision so effective.