Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models

📄 arXiv: 2505.03469v2 📥 PDF

作者: Bin Yu, Hang Yuan, Haotian Li, Xueyin Xu, Yuliang Wei, Bailing Wang, Weizhen Qi, Kai Chen

分类: cs.CL

发布日期: 2025-05-06 (更新: 2025-05-21)

备注: 12 pages, 5 figures


💡 一句话要点

提出LS-Mixture SFT,解决SFT微调中LLM的过度推理问题,提升推理效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链 监督微调 长短混合 高效推理 语言模型 知识蒸馏 模型压缩

📋 核心要点

  1. 现有SFT方法使LLM继承教师模型的“过度思考”问题,产生冗余推理链,影响推理效率。
  2. LS-Mixture SFT结合长CoT和结构保留重写的短CoT数据,避免模型过度依赖冗长推理。
  3. 实验表明,LS-Mixture SFT在提升准确率的同时,显著减少了模型响应长度,提高了推理效率。

📝 摘要(中文)

大型语言模型(LLM)的最新进展表明,使用从大型推理模型(如DeepSeek R1)中提炼的思维链(CoT)推理数据进行监督微调(SFT),可以有效地将推理能力转移到非推理模型。然而,使用这种方法微调的模型会继承教师模型的“过度思考”问题,在推理过程中产生冗长且多余的推理链。为了应对这一挑战,我们提出了长短思维链混合监督微调(LS-Mixture SFT),它将长CoT推理数据集与其通过结构保留重写获得的短CoT推理数据集相结合。实验表明,与直接SFT训练的模型相比,使用LS-Mixture SFT方法训练的模型在各种基准测试中平均准确率提高了2.3%,同时模型响应长度大幅减少了约47.61%。这项工作提供了一种通过监督微调赋予非推理模型推理能力的方法,同时避免了从教师模型继承的固有过度思考问题,从而实现了微调模型中的高效推理。

🔬 方法详解

问题定义:论文旨在解决通过监督微调(SFT)将大型推理模型(如DeepSeek R1)的推理能力迁移到非推理模型时,目标模型继承教师模型“过度思考”的问题。现有方法直接使用教师模型的思维链(CoT)数据进行SFT,导致微调后的模型在推理时产生冗长且多余的推理链,降低了推理效率。

核心思路:论文的核心思路是通过混合长短两种类型的思维链数据进行SFT,即LS-Mixture SFT。具体来说,将原始的长CoT推理数据集与通过结构保留重写获得的短CoT推理数据集相结合,用于模型的微调。这样设计的目的是让模型学习到既能进行有效推理,又能避免过度冗余的推理过程。

技术框架:LS-Mixture SFT的技术框架主要包含以下几个阶段:1) 获取长CoT推理数据集(通常来自大型推理模型);2) 通过结构保留重写方法,将长CoT数据集转换为短CoT数据集;3) 将长CoT和短CoT数据集混合,构建LS-Mixture数据集;4) 使用LS-Mixture数据集对目标模型进行监督微调(SFT)。

关键创新:论文最重要的技术创新点在于提出了LS-Mixture SFT方法,通过混合长短思维链数据进行微调,从而在赋予模型推理能力的同时,避免了模型继承教师模型的“过度思考”问题。与传统的SFT方法相比,LS-Mixture SFT能够显著减少模型响应长度,提高推理效率。

关键设计:关于长短CoT数据的混合比例,论文可能进行了实验分析,以确定最佳的混合比例。结构保留重写方法的具体实现细节(例如,如何保证重写后的短CoT数据仍然保留原始推理的逻辑结构)也是一个关键的设计点。此外,损失函数的设计可能也需要考虑长短CoT数据的差异,例如,对长CoT数据和短CoT数据赋予不同的权重。

📊 实验亮点

实验结果表明,使用LS-Mixture SFT方法训练的模型,与直接使用SFT训练的模型相比,在各种基准测试中平均准确率提高了2.3%,同时模型响应长度大幅减少了约47.61%。这表明LS-Mixture SFT能够在提升模型推理能力的同时,显著提高推理效率,有效解决了传统SFT方法带来的“过度思考”问题。

🎯 应用场景

该研究成果可应用于各种需要高效推理的场景,例如智能客服、自动问答系统、代码生成等。通过LS-Mixture SFT,可以训练出既具备推理能力,又不会产生冗余信息的轻量级模型,从而降低计算成本,提高用户体验。未来,该方法有望推广到更多领域,例如机器人控制、决策支持等。

📄 摘要(原文)

Recent advances in large language models have demonstrated that Supervised Fine-Tuning (SFT) with Chain-of-Thought (CoT) reasoning data distilled from large reasoning models (e.g., DeepSeek R1) can effectively transfer reasoning capabilities to non-reasoning models. However, models fine-tuned with this approach inherit the "overthinking" problem from teacher models, producing verbose and redundant reasoning chains during inference. To address this challenge, we propose Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning (LS-Mixture SFT), which combines long CoT reasoning dataset with their short counterparts obtained through structure-preserved rewriting. Our experiments demonstrate that models trained using the LS-Mixture SFT method, compared to those trained with direct SFT, achieved an average accuracy improvement of 2.3% across various benchmarks while substantially reducing model response length by approximately 47.61%. This work offers an approach to endow non-reasoning models with reasoning capabilities through supervised fine-tuning while avoiding the inherent overthinking problems inherited from teacher models, thereby enabling efficient reasoning in the fine-tuned models.