MiCoTA: Bridging the Learnability Gap with Intermediate CoT and Teacher Assistants

📄 arXiv: 2507.01887v1 📥 PDF

作者: Dongyi Ding, Tiannan Wang, Chenghao Zhu, Meiling Tao, Yuchen Eleanor Jiang, Wangchunshu Zhou

分类: cs.CL

发布日期: 2025-07-02

备注: Work in progress


💡 一句话要点

MiCoTA:利用中间CoT和教师助手弥合小模型学习能力差距

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 知识蒸馏 链式思考 小型模型 推理能力 教师助手 中间模型

📋 核心要点

  1. 大型语言模型推理能力强,但计算成本高,难以部署;小型语言模型计算成本低,但难以学习长链CoT推理。
  2. MiCoTA框架利用中等规模模型作为教师助手,生成中等长度的CoT序列,弥合大小模型在能力和推理长度上的差距。
  3. 实验表明,MiCoTA能显著提升小型语言模型在推理任务上的性能,例如Qwen2.5-7B-Instruct和Qwen2.5-3B-Instruct在多个基准测试中取得了显著提升。

📝 摘要(中文)

大型语言模型(LLMs)擅长需要长序列思考的推理任务,例如规划、反思和改进。然而,它们庞大的模型规模和高计算需求使其难以广泛部署。小型语言模型(SLMs)由于其有限的能力,通常难以学习长形式的CoT推理,我们称之为“SLMs学习能力差距”。为了解决这个问题,我们引入了中间CoT教师助手蒸馏(MiCoTAl)框架,用于改进SLMs的长CoT蒸馏。MiCoTA采用中等规模的模型作为教师助手,并利用中等长度的CoT序列来弥合能力和推理长度的差距。在下游任务上的实验表明,虽然从大型教师模型蒸馏出的SLMs性能可能较差,但通过应用MiCoTA,它们在推理性能方面取得了显著的提升。具体而言,Qwen2.5-7B-Instruct和Qwen2.5-3B-Instruct在AIME2024、AMC、Olympiad、MATH-500和GSM8K基准测试上的平均得分分别提高了3.47和3.93。为了更好地理解MiCoTA背后的机制,我们进行了一项定量实验,表明我们的方法产生的数据更符合基础SLM的分布。我们的见解为未来研究SLMs的长CoT数据蒸馏铺平了道路。

🔬 方法详解

问题定义:论文旨在解决小型语言模型(SLMs)难以学习长链思维(Chain-of-Thought, CoT)推理的问题。现有方法直接使用大型语言模型(LLMs)作为教师进行蒸馏,但由于SLMs的能力有限,无法有效学习LLMs生成的复杂CoT数据,导致性能不佳。这种现象被称为“SLMs学习能力差距”。

核心思路:论文的核心思路是引入中间规模的语言模型作为教师助手,生成中间长度的CoT序列,逐步引导SLMs学习长链推理。通过这种方式,可以避免SLMs直接接触过于复杂的CoT数据,从而降低学习难度,提高蒸馏效果。同时,中间模型也弥合了LLM和SLM之间的能力差距。

技术框架:MiCoTA框架包含以下几个主要阶段:1) 使用中间规模的语言模型生成中间长度的CoT序列;2) 使用这些CoT序列作为训练数据,对SLMs进行蒸馏;3) 可以选择迭代上述过程,逐步增加CoT序列的长度和复杂度。整体流程类似于一个“循序渐进”的教学过程,帮助SLMs逐步掌握长链推理能力。

关键创新:MiCoTA的关键创新在于引入了中间教师助手和中间长度的CoT序列。这与传统的直接蒸馏方法不同,后者通常直接使用大型模型生成的数据进行训练,忽略了SLMs的学习能力限制。MiCoTA通过逐步引导的方式,更有效地利用了LLMs的知识,并将其迁移到SLMs上。

关键设计:具体的技术细节包括:中间模型的选择(例如,选择一个参数量介于LLM和SLM之间的模型),CoT序列长度的控制(例如,逐步增加CoT序列的长度),以及蒸馏损失函数的选择(例如,可以使用标准的知识蒸馏损失函数,如KL散度)。论文还通过实验验证了MiCoTA生成的数据更符合SLM的分布,从而解释了其有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MiCoTA能够显著提升小型语言模型在推理任务上的性能。例如,Qwen2.5-7B-Instruct和Qwen2.5-3B-Instruct在AIME2024、AMC、Olympiad、MATH-500和GSM8K等多个基准测试上的平均得分分别提高了3.47和3.93。这些结果表明,MiCoTA有效地弥合了SLMs的学习能力差距,使其能够更好地学习长链CoT推理。

🎯 应用场景

MiCoTA框架可应用于各种需要长链推理的场景,例如数学问题求解、逻辑推理、代码生成等。通过该方法,可以训练出计算成本更低、部署更加灵活的小型语言模型,从而在资源受限的环境中实现高效的推理能力。该研究有助于推动AI技术在边缘设备和移动端的应用。

📄 摘要(原文)

Large language models (LLMs) excel at reasoning tasks requiring long thought sequences for planning, reflection, and refinement. However, their substantial model size and high computational demands are impractical for widespread deployment. Yet, small language models (SLMs) often struggle to learn long-form CoT reasoning due to their limited capacity, a phenomenon we refer to as the "SLMs Learnability Gap". To address this, we introduce \textbf{Mi}d-\textbf{Co}T \textbf{T}eacher \textbf{A}ssistant Distillation (MiCoTAl), a framework for improving long CoT distillation for SLMs. MiCoTA employs intermediate-sized models as teacher assistants and utilizes intermediate-length CoT sequences to bridge both the capacity and reasoning length gaps. Our experiments on downstream tasks demonstrate that although SLMs distilled from large teachers can perform poorly, by applying MiCoTA, they achieve significant improvements in reasoning performance. Specifically, Qwen2.5-7B-Instruct and Qwen2.5-3B-Instruct achieve an improvement of 3.47 and 3.93 respectively on average score on AIME2024, AMC, Olympiad, MATH-500 and GSM8K benchmarks. To better understand the mechanism behind MiCoTA, we perform a quantitative experiment demonstrating that our method produces data more closely aligned with base SLM distributions. Our insights pave the way for future research into long-CoT data distillation for SLMs.