Merge-of-Thought Distillation

📄 arXiv: 2509.08814v3 📥 PDF

作者: Zhanming Shen, Zeyu Qin, Zenan Huang, Hao Chen, Jiaqi Hu, Yihong Zhuang, Guoshan Lu, Gang Chen, Junbo Zhao

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-09-10 (更新: 2025-10-16)


💡 一句话要点

提出Merge-of-Thought Distillation,解决长链思维模型蒸馏中多教师冲突问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长链思维 知识蒸馏 多教师学习 模型融合 权重空间合并

📋 核心要点

  1. 现有长链思维模型蒸馏依赖单一教师,忽略了多教师场景下教师间的知识冲突和学生对教师的差异化需求。
  2. 提出Merge-of-Thought Distillation (MoT) 框架,通过交替进行教师特定微调和权重空间合并,融合多教师知识。
  3. 实验表明,MoT在数学推理任务上超越多个强大模型,并提升通用推理能力,同时降低灾难性遗忘。

📝 摘要(中文)

针对长链思维(CoT)模型的高效推理蒸馏日益受到单一oracle教师假设的限制,而实际应用中存在多个候选教师和不断增长的CoT语料库。本文重新审视了教师选择问题,发现不同的学生有不同的“最佳教师”,甚至对于同一个学生,最佳教师也可能因数据集而异。因此,为了将多个教师的推理能力统一到一个学生中,以克服不同教师监督之间的冲突,我们提出了Merge-of-Thought Distillation(MoT),这是一个轻量级框架,在特定于教师的监督微调分支和由此产生的学生变体的权重空间合并之间交替进行。在竞赛数学基准测试中,仅使用约200个CoT样本,将MoT应用于Qwen3-14B学生模型超越了包括Deepseek-R1、Qwen3-32B和OpenAI-O1在内的强大模型,展示了显著的性能提升。此外,MoT始终优于最佳单教师蒸馏,在减少灾难性遗忘的同时,提高了数学以外的通用推理能力,并对分布偏移和同级别教师表现出鲁棒性。最后,我们证明了MoT具有共识CoT,通过消除特定于教师的归纳偏差和教师间的冲突,同时反复加强共识推理特征的学习。这些结果表明,MoT是一种简单有效的途径,可以将多样化教师的长CoT能力高效地提炼到紧凑的学生模型中。

🔬 方法详解

问题定义:现有长链思维(CoT)模型蒸馏方法主要依赖于单一的“oracle”教师模型,这限制了知识的来源和多样性。然而,在实际应用中,往往存在多个可用的教师模型,并且这些教师模型之间可能存在知识冲突,导致学生模型难以有效地学习。此外,不同的学生模型可能更适合不同的教师模型,而现有方法无法根据学生模型的特点选择合适的教师。

核心思路:MoT的核心思路是通过融合多个教师模型的知识来提高学生模型的性能。它没有简单地选择一个最佳教师,而是利用所有可用的教师模型,并通过一种迭代的方式来训练学生模型。这种方法能够克服教师模型之间的知识冲突,并使学生模型能够学习到更全面和鲁棒的知识。

技术框架:MoT框架主要包含两个阶段:教师特定微调和权重空间合并。在教师特定微调阶段,首先针对每个教师模型,对学生模型进行微调,得到多个特定于教师的学生模型变体。然后,在权重空间合并阶段,将这些学生模型变体的权重进行合并,得到最终的学生模型。这两个阶段交替进行,直到学生模型的性能达到预定的目标。

关键创新:MoT的关键创新在于它能够有效地融合多个教师模型的知识。与传统的单一教师蒸馏方法相比,MoT能够克服教师模型之间的知识冲突,并使学生模型能够学习到更全面和鲁棒的知识。此外,MoT还能够根据学生模型的特点选择合适的教师模型,从而进一步提高学生模型的性能。

关键设计:MoT的关键设计包括:1) 使用特定于教师的损失函数进行微调,以确保学生模型能够学习到每个教师模型的独特知识;2) 使用权重平均或更复杂的权重空间合并方法,以融合不同教师模型的知识;3) 使用验证集来监控学生模型的性能,并确定何时停止迭代。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MoT在竞赛数学基准测试中,仅使用约200个CoT样本,将Qwen3-14B学生模型训练至超越Deepseek-R1、Qwen3-32B和OpenAI-O1等强大模型。MoT也优于最佳单教师蒸馏,提升了通用推理能力,并降低了灾难性遗忘。此外,MoT对分布偏移和同级别教师表现出鲁棒性。

🎯 应用场景

MoT可应用于各种需要长链思维能力的场景,例如复杂问题求解、代码生成、文本摘要等。通过将多个专家模型的知识蒸馏到小型模型中,可以降低部署成本,提高推理效率,并提升模型在实际应用中的鲁棒性和泛化能力。该方法在教育、金融、医疗等领域具有广泛的应用前景。

📄 摘要(原文)

Efficient reasoning distillation for long chain-of-thought (CoT) models is increasingly constrained by the assumption of a single oracle teacher, despite the practical availability of multiple candidate teachers and growing CoT corpora. We revisit teacher selection and observe that different students have different "best teachers," and even for the same student, the best teacher can vary across datasets. Therefore, to unify multiple teachers' reasoning abilities into a student to overcome conflicts among various teachers' supervision, we propose Merge-of-Thought Distillation (MoT), a lightweight framework that alternates between teacher-specific supervised fine-tuning branches and weight-space merging of the resulting student variants. On competition math benchmarks, using only about 200 CoT samples, applying MoT to a Qwen3-14B student surpasses strong models including Deepseek-R1, Qwen3-32B, and OpenAI-O1, demonstrating substantial gains. Besides, MoT consistently outperforms the best single-teacher distillation, improves general reasoning beyond mathematics while reducing catastrophic forgetting, and shows robustness to distribution-shifted and peer-level teachers. Finally, we have demonstrated MoT possesses consensus CoT by eliminating teacher-specific inductive biases and inter-teacher conflicts while repeatedly reinforcing the learning of consensus reasoning features. These results position MoT as a simple, effective route to efficiently distilling long CoT capabilities from diverse teachers into compact students.