Towards Efficient CoT Distillation: Self-Guided Rationale Selector for Better Performance with Fewer Rationales

📄 arXiv: 2509.23574v1 📥 PDF

作者: Jianzhi Yan, Le Liu, Youcheng Pan, Shiwei Chen, Yang Xiang, Buzhou Tang

分类: cs.CL, cs.AI

发布日期: 2025-09-28

备注: 18 pages, 10 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出MoRSD,通过自引导的理由选择器实现高效CoT蒸馏,以更少的理由获得更好的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链蒸馏 模型压缩 自引导学习 理由选择 语言模型 知识迁移 高效训练

📋 核心要点

  1. 现有CoT蒸馏方法侧重数据量,忽略了理由质量,可能导致噪声信息传递,影响学生模型性能。
  2. MoRSD通过自引导的理由选择器,选择高质量、多样且难度适中的理由进行蒸馏,提升学生模型推理能力。
  3. 实验表明,MoRSD在多个数据集上优于基线,仅使用少量高质量理由即可获得显著性能提升。

📝 摘要(中文)

本文提出了一种面向模型(Model-Oriented)的理由选择蒸馏方法(MoRSD),旨在解决现有思维链(CoT)蒸馏方法中对理由质量重视不足的问题。现有方法主要关注数据量,可能将噪声或不正确的信息传递给学生模型。MoRSD能够辨别和选择高质量的理由进行蒸馏,从而进一步提高性能。此外,本文还提出了一种理由难度(RD)指标,用于衡量学生模型在给定理由下生成正确答案的能力。实验结果表明,与基线方法相比,MoRSD在三个任务的七个数据集上取得了平均4.6%的性能提升,同时使用了更少的理由,这是通过控制理由的准确性、多样性和难度来实现的。研究结果表明,少量高质量的理由比整个数据集更能增强学生模型的推理能力。该方法有望成为高效CoT蒸馏的一种可行方案。代码将在https://github.com/Leon221220/MoRSD 上发布。

🔬 方法详解

问题定义:现有思维链(CoT)蒸馏方法在将大型教师模型的推理能力迁移到小型学生模型时,主要关注用于蒸馏的数据量,而忽略了理由(Rationale)的质量。这导致学生模型可能学习到噪声或不正确的推理过程,从而限制了其性能提升。因此,需要一种方法来选择高质量的理由进行蒸馏,以提高学生模型的推理能力。

核心思路:MoRSD的核心思路是利用学生模型自身的能力来评估和选择用于蒸馏的理由。通过引入理由难度(RD)指标,衡量学生模型在给定理由下生成正确答案的能力。选择那些学生模型能够理解但又具有一定挑战性的理由,从而促进学生模型推理能力的提升。同时,考虑理由的准确性和多样性,避免学生模型过度拟合特定类型的理由。

技术框架:MoRSD的整体框架包括以下几个主要步骤:1) 使用教师模型生成大量的理由和答案;2) 使用学生模型评估每个理由的难度(RD);3) 根据理由的准确性、多样性和难度,选择用于蒸馏的高质量理由子集;4) 使用选择的理由子集对学生模型进行蒸馏训练。

关键创新:MoRSD的关键创新在于提出了自引导的理由选择机制,即利用学生模型自身的能力来评估和选择用于蒸馏的理由。与现有方法相比,MoRSD不需要额外的人工标注或复杂的预训练模型,而是直接利用学生模型对理由的理解程度来指导理由的选择。此外,理由难度(RD)指标的引入,使得可以选择那些对学生模型最具学习价值的理由。

关键设计:理由难度(RD)指标的计算方式是:首先使用学生模型在给定理由的条件下生成答案,然后比较生成的答案与教师模型提供的正确答案。RD值越高,表示学生模型在给定理由下生成正确答案的概率越低,即理由的难度越高。在选择理由时,需要平衡理由的准确性、多样性和难度,例如,可以选择那些准确率较高、覆盖不同推理路径且RD值适中的理由。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MoRSD在七个数据集上取得了平均4.6%的性能提升,优于基线方法。更重要的是,MoRSD仅使用少量高质量的理由就实现了这一提升,显著降低了蒸馏训练的计算成本。例如,在某些数据集上,MoRSD仅使用20%的理由就达到了与使用全部理由相当甚至更好的性能。

🎯 应用场景

MoRSD方法可应用于各种需要高效模型蒸馏的场景,例如在资源受限的边缘设备上部署小型语言模型,或者在需要快速迭代的开发过程中加速模型训练。通过选择高质量的理由进行蒸馏,可以显著减少训练数据量,降低计算成本,并提高学生模型的推理性能。该方法还有助于提高模型的可解释性,因为选择的理由可以揭示模型进行推理的关键步骤。

📄 摘要(原文)

Chain-of-thought (CoT) distillation aims to enhance small language models' (SLMs) reasoning by transferring multi-step reasoning capability from the larger teacher models. However, existing work underestimates rationale quality, focusing primarily on data quantity, which may transfer noisy or incorrect information to the student model. To address the above issues, we proposed \textbf{M}odel-\textbf{O}riented \textbf{R}ationale \textbf{S}election \textbf{D}istillation (MoRSD), which can discern and select high quality rationales for distillation to improve performance further. We further propose a Rationale Difficulty (RD) metric to measure the ability of the student model to generate the correct answer under a given rationale. Compared to the baseline, we achieved 4.6$\%$ average improvement on seven datasets over three tasks, using fewer rationales by controlling their accuracy, diversity, and difficulty. Our results reveal that a small portion of the high quality rationales can enhance the reasoning ability of student models than the entire dataset. Our method promises to be a possible solution for efficient CoT distillation. Our code will be released in https://github.com/Leon221220/MoRSD.