Compress-Distill: Reasoning Trace Compression for Efficient Knowledge Distillation
作者: Maxime Griot, Paul Steven Scotti, Tanishq Mathew Abraham
分类: cs.LG, cs.CL
发布日期: 2026-06-04
💡 一句话要点
提出压缩推理轨迹以提高知识蒸馏效率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推理轨迹压缩 知识蒸馏 模型训练 效率提升 自然语言处理
📋 核心要点
- 现有推理模型生成的长链思维轨迹在知识蒸馏中成本高且输出冗长,影响训练效率。
- 本文提出了一种后处理压缩方法,通过两个教师模型生成的轨迹进行压缩,以提高知识蒸馏的效率。
- 实验表明,压缩轨迹能显著减少训练令牌数量和推理输出长度,同时在小型学生模型中保持较高的准确率。
📝 摘要(中文)
推理模型生成的长链思维轨迹在蒸馏过程中成本高且导致学生模型输出冗长。本文研究了在知识蒸馏前对这些轨迹进行后处理压缩的方法。通过两个教师模型生成约283k条正确轨迹,随后两个指令调优模型将其压缩至原字符长度的8.6-21.0%。实验结果显示,压缩后的轨迹将训练令牌减少至原始的12-30%,训练速度提升2.0-7.6倍,推理输出缩短3-19倍。尽管原始轨迹在每个规模上保持最高的下游准确率,但压缩轨迹在小型学生模型中通常优于或匹配简单截断,同时保持更短的推理输出。总体而言,推理轨迹压缩提供了准确性与效率的权衡,而非单纯的提升。
🔬 方法详解
问题定义:本文旨在解决推理模型生成的长链思维轨迹在知识蒸馏过程中造成的高成本和冗长输出的问题。现有方法在处理这些轨迹时效率低下,影响了模型的训练和推理性能。
核心思路:论文提出在知识蒸馏前对推理轨迹进行后处理压缩,以减少训练令牌的数量和推理输出的长度。通过压缩,学生模型能够在保持较高准确率的同时,显著提高每个令牌的效率。
技术框架:整体架构包括两个主要阶段:首先由两个教师模型(Qwen3.5-397B-A17B和gpt-oss-120B)生成大量的推理轨迹,其次由两个指令调优模型对这些轨迹进行压缩,最终用于知识蒸馏。
关键创新:最重要的技术创新在于提出了一种有效的后处理压缩方法,使得压缩后的轨迹在训练和推理中表现出更高的效率,同时在小型学生模型中保持较高的准确性。这与传统的简单截断方法形成了鲜明对比。
关键设计:在实验中,压缩模型的参数设置经过精心调整,以确保在压缩过程中尽量保留信息。此外,损失函数的设计也考虑了准确性与效率之间的平衡,确保压缩后的轨迹能够有效支持知识蒸馏。
🖼️ 关键图片
📊 实验亮点
实验结果显示,压缩后的推理轨迹将训练令牌减少至原始的12-30%,训练速度提升2.0-7.6倍,推理输出缩短3-19倍。尽管原始轨迹在各个规模上保持最高的准确率,但压缩轨迹在小型学生模型中通常优于或匹配简单截断,显示出显著的效率提升。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、智能对话系统和自动化推理等。通过提高知识蒸馏的效率,能够加速模型训练过程,降低计算资源消耗,从而在实际应用中实现更高的性能和更低的成本。未来,该方法可能会推动更高效的模型设计和训练策略的发展。
📄 摘要(原文)
Reasoning models produce long chain-of-thought traces that are costly to distill and encourage verbose student outputs. We study post-hoc compression of such traces before knowledge distillation. Two teachers, Qwen3.5-397B-A17B and gpt-oss-120B, generate about 283k correct traces each; two instruction-tuned models then compress them to 8.6-21.0% of their original character length. Across a 48-run main grid plus seven Qwen-teacher truncation ablations, compressed traces reduce training tokens to 12-30% of raw, speed up training by 2.0-7.6x, and shorten inference outputs by 3-19x with smaller reductions under the shorter gpt-oss teacher. However, raw traces retain the highest downstream accuracy at every scale and for both teachers. A length-matched raw-trace truncation ablation shows that compression is not merely benefiting from a smaller token budget: model-compressed traces usually beat or match naive truncation, especially for smaller students, while maintaining shorter inference outputs. Overall, reasoning-trace compression offers an accuracy-efficiency trade-off rather than a free improvement: students retain up to 96% of raw-trace accuracy while gaining up to 18x higher per-token efficiency, and at the 0.8B scale under LoRA compressed traces narrow the raw-vs-compressed gap but do not exceed raw.