Not All Correct Answers Are Equal: Why Your Distillation Source Matters
作者: Xiaoyu Tian, Yunjie Ji, Haotian Wang, Shuaiting Chen, Sitong Zhao, Yiping Peng, Han Zhao, Xiangang Li
分类: cs.CL
发布日期: 2025-05-20 (更新: 2025-05-22)
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
高质量蒸馏数据至关重要:教师模型选择影响大模型推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 知识蒸馏 语言模型 推理能力 教师模型 数据集 模型评估
📋 核心要点
- 现有开源大模型推理能力不足,蒸馏是一种有效的提升手段,但缺乏对教师模型选择的深入研究。
- 论文通过对比不同教师模型蒸馏的数据集,发现高质量的教师模型能产生更优的蒸馏数据,进而提升学生模型的推理能力。
- 实验表明,使用AM-Thinking-v1蒸馏的数据训练的学生模型在多个推理基准测试中取得了最佳性能,验证了高质量蒸馏数据的价值。
📝 摘要(中文)
本文通过大规模实证研究,探讨了推理数据蒸馏中教师模型选择的重要性。研究收集了来自三个最先进教师模型(AM-Thinking-v1、Qwen3-235B-A22B 和 DeepSeek-R1)在189万个查询上的验证输出,构建了三个并行数据集并分析了它们的分布。结果表明,AM-Thinking-v1蒸馏的数据表现出更大的token长度多样性和更低的困惑度。在AIME2024、AIME2025、MATH500 和 LiveCodeBench 等推理基准测试中,使用 AM-Thinking-v1 蒸馏的数据训练的学生模型始终表现最佳(例如,在 AIME2024 上达到 84.3,在 AIME2025 上达到 72.2,在 MATH500 上达到 98.4,在 LiveCodeBench 上达到 65.9),并表现出适应性输出行为——对于较难的任务产生较长的响应,对于较简单的任务产生较短的响应。这些发现突出了高质量、经过验证的推理轨迹的价值。研究发布了 AM-Thinking-v1 和 Qwen3-235B-A22B 蒸馏数据集,以支持未来对开放且高性能的面向推理的语言模型的研究。
🔬 方法详解
问题定义:论文旨在解决如何选择合适的教师模型进行知识蒸馏,以提升开源语言模型的推理能力。现有方法通常忽略了教师模型质量对蒸馏效果的影响,导致学生模型性能提升有限。不同教师模型生成的答案质量参差不齐,直接影响学生模型的学习效果。
核心思路:论文的核心思路是通过对比不同教师模型蒸馏的数据集,分析其分布特征,并评估使用这些数据集训练的学生模型的性能,从而揭示教师模型质量对蒸馏效果的影响。论文假设高质量的教师模型能够产生更具信息量和更准确的推理轨迹,进而提升学生模型的推理能力。
技术框架:论文的技术框架主要包括以下几个阶段:1) 数据收集:从三个最先进的教师模型(AM-Thinking-v1、Qwen3-235B-A22B 和 DeepSeek-R1)收集在189万个查询上的验证输出。2) 数据集构建:基于收集到的数据,构建三个并行的蒸馏数据集。3) 数据分析:分析不同数据集的分布特征,例如token长度多样性和困惑度。4) 模型训练:使用不同数据集训练学生模型。5) 性能评估:在多个推理基准测试中评估学生模型的性能。
关键创新:论文最重要的技术创新点在于揭示了教师模型质量对知识蒸馏效果的显著影响。以往的研究往往侧重于蒸馏算法的优化,而忽略了教师模型本身的重要性。论文通过实验证明,选择高质量的教师模型能够显著提升学生模型的推理能力。
关键设计:论文的关键设计包括:1) 选择了三个具有代表性的最先进教师模型。2) 构建了大规模的蒸馏数据集。3) 采用了多个推理基准测试进行全面评估。4) 分析了数据集的token长度多样性和困惑度等特征。没有特别提及损失函数和网络结构等细节,推测使用了常见的训练方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用 AM-Thinking-v1 蒸馏的数据训练的学生模型在 AIME2024 上达到 84.3,在 AIME2025 上达到 72.2,在 MATH500 上达到 98.4,在 LiveCodeBench 上达到 65.9,显著优于使用其他教师模型蒸馏的数据训练的学生模型。这充分证明了高质量教师模型在知识蒸馏中的重要性。
🎯 应用场景
该研究成果可应用于提升开源大模型的推理能力,尤其是在资源受限的场景下,通过选择高质量的教师模型进行知识蒸馏,可以有效地提升学生模型的性能。此外,该研究也为未来知识蒸馏算法的设计提供了新的思路,即更加关注教师模型的选择和优化。
📄 摘要(原文)
Distillation has emerged as a practical and effective approach to enhance the reasoning capabilities of open-source language models. In this work, we conduct a large-scale empirical study on reasoning data distillation by collecting verified outputs from three state-of-the-art teacher models-AM-Thinking-v1, Qwen3-235B-A22B, and DeepSeek-R1-on a shared corpus of 1.89 million queries. We construct three parallel datasets and analyze their distributions, revealing that AM-Thinking-v1-distilled data exhibits greater token length diversity and lower perplexity. Student models trained on each dataset are evaluated on reasoning benchmarks including AIME2024, AIME2025, MATH500, and LiveCodeBench. The model distilled from AM-Thinking-v1 consistently achieves the best performance (e.g., 84.3 on AIME2024, 72.2 on AIME2025, 98.4 on MATH500, and 65.9 on LiveCodeBench) and demonstrates adaptive output behavior-producing longer responses for harder tasks and shorter ones for simpler tasks. These findings highlight the value of high-quality, verified reasoning traces. We release the AM-Thinking-v1 and Qwen3-235B-A22B distilled datasets to support future research on open and high-performing reasoning-oriented language models. The datasets are publicly available on Hugging Face\footnote{Datasets are available on Hugging Face: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled}{AM-Thinking-v1-Distilled}, \href{https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled}{AM-Qwen3-Distilled}.}.