Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models

作者: Bin Yu, Hang Yuan, Haotian Li, Xueyin Xu, Yuliang Wei, Bailing Wang, Weizhen Qi, Kai Chen

分类: cs.CL

发布日期: 2025-05-06 (更新: 2025-05-21)

备注: 12 pages, 5 figures

💡 一句话要点

提出LS-Mixture SFT，解决SFT微调中LLM的过度推理问题，提升推理效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链 监督微调 长短混合 高效推理 语言模型 知识蒸馏 模型压缩

📋 核心要点

现有SFT方法使LLM继承教师模型的“过度思考”问题，产生冗余推理链，影响推理效率。
LS-Mixture SFT结合长CoT和结构保留重写的短CoT数据，避免模型过度依赖冗长推理。
实验表明，LS-Mixture SFT在提升准确率的同时，显著减少了模型响应长度，提高了推理效率。

📝 摘要（中文）

大型语言模型（LLM）的最新进展表明，使用从大型推理模型（如DeepSeek R1）中提炼的思维链（CoT）推理数据进行监督微调（SFT），可以有效地将推理能力转移到非推理模型。然而，使用这种方法微调的模型会继承教师模型的“过度思考”问题，在推理过程中产生冗长且多余的推理链。为了应对这一挑战，我们提出了长短思维链混合监督微调（LS-Mixture SFT），它将长CoT推理数据集与其通过结构保留重写获得的短CoT推理数据集相结合。实验表明，与直接SFT训练的模型相比，使用LS-Mixture SFT方法训练的模型在各种基准测试中平均准确率提高了2.3%，同时模型响应长度大幅减少了约47.61%。这项工作提供了一种通过监督微调赋予非推理模型推理能力的方法，同时避免了从教师模型继承的固有过度思考问题，从而实现了微调模型中的高效推理。

🔬 方法详解

问题定义：论文旨在解决通过监督微调（SFT）将大型推理模型（如DeepSeek R1）的推理能力迁移到非推理模型时，目标模型继承教师模型“过度思考”的问题。现有方法直接使用教师模型的思维链（CoT）数据进行SFT，导致微调后的模型在推理时产生冗长且多余的推理链，降低了推理效率。

核心思路：论文的核心思路是通过混合长短两种类型的思维链数据进行SFT，即LS-Mixture SFT。具体来说，将原始的长CoT推理数据集与通过结构保留重写获得的短CoT推理数据集相结合，用于模型的微调。这样设计的目的是让模型学习到既能进行有效推理，又能避免过度冗余的推理过程。

技术框架：LS-Mixture SFT的技术框架主要包含以下几个阶段：1) 获取长CoT推理数据集（通常来自大型推理模型）；2) 通过结构保留重写方法，将长CoT数据集转换为短CoT数据集；3) 将长CoT和短CoT数据集混合，构建LS-Mixture数据集；4) 使用LS-Mixture数据集对目标模型进行监督微调（SFT）。

关键创新：论文最重要的技术创新点在于提出了LS-Mixture SFT方法，通过混合长短思维链数据进行微调，从而在赋予模型推理能力的同时，避免了模型继承教师模型的“过度思考”问题。与传统的SFT方法相比，LS-Mixture SFT能够显著减少模型响应长度，提高推理效率。

关键设计：关于长短CoT数据的混合比例，论文可能进行了实验分析，以确定最佳的混合比例。结构保留重写方法的具体实现细节（例如，如何保证重写后的短CoT数据仍然保留原始推理的逻辑结构）也是一个关键的设计点。此外，损失函数的设计可能也需要考虑长短CoT数据的差异，例如，对长CoT数据和短CoT数据赋予不同的权重。

📊 实验亮点

实验结果表明，使用LS-Mixture SFT方法训练的模型，与直接使用SFT训练的模型相比，在各种基准测试中平均准确率提高了2.3%，同时模型响应长度大幅减少了约47.61%。这表明LS-Mixture SFT能够在提升模型推理能力的同时，显著提高推理效率，有效解决了传统SFT方法带来的“过度思考”问题。

🎯 应用场景

该研究成果可应用于各种需要高效推理的场景，例如智能客服、自动问答系统、代码生成等。通过LS-Mixture SFT，可以训练出既具备推理能力，又不会产生冗余信息的轻量级模型，从而降低计算成本，提高用户体验。未来，该方法有望推广到更多领域，例如机器人控制、决策支持等。

📄 摘要（原文）

Recent advances in large language models have demonstrated that Supervised Fine-Tuning (SFT) with Chain-of-Thought (CoT) reasoning data distilled from large reasoning models (e.g., DeepSeek R1) can effectively transfer reasoning capabilities to non-reasoning models. However, models fine-tuned with this approach inherit the "overthinking" problem from teacher models, producing verbose and redundant reasoning chains during inference. To address this challenge, we propose Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning (LS-Mixture SFT), which combines long CoT reasoning dataset with their short counterparts obtained through structure-preserved rewriting. Our experiments demonstrate that models trained using the LS-Mixture SFT method, compared to those trained with direct SFT, achieved an average accuracy improvement of 2.3% across various benchmarks while substantially reducing model response length by approximately 47.61%. This work offers an approach to endow non-reasoning models with reasoning capabilities through supervised fine-tuning while avoiding the inherent overthinking problems inherited from teacher models, thereby enabling efficient reasoning in the fine-tuned models.

Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理