Towards Efficient CoT Distillation: Self-Guided Rationale Selector for Better Performance with Fewer Rationales

📄 arXiv: 2509.23574v1 📥 PDF

作者: Jianzhi Yan, Le Liu, Youcheng Pan, Shiwei Chen, Yang Xiang, Buzhou Tang

分类: cs.CL, cs.AI

发布日期: 2025-09-28

备注: 18 pages, 10 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出MoRSD,通过自引导的理由选择器,以更少的理由实现更高效的CoT蒸馏。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 链式思考 知识蒸馏 理由选择 模型压缩 自然语言处理

📋 核心要点

  1. 现有CoT蒸馏方法侧重于数据量,忽略了理由质量,导致学生模型学习到噪声或错误信息。
  2. MoRSD通过自引导的理由选择器,选择高质量、多样性且难度适中的理由进行蒸馏,提升学生模型性能。
  3. 实验表明,MoRSD在多个数据集上优于基线,仅使用少量高质量理由即可显著提升学生模型的推理能力。

📝 摘要(中文)

链式思考(CoT)蒸馏旨在通过从大型教师模型迁移多步推理能力来增强小型语言模型(SLM)的推理能力。然而,现有的工作低估了理由的质量,主要关注数据量,这可能会将噪声或不正确的信息传递给学生模型。为了解决上述问题,我们提出了模型导向的理由选择蒸馏(MoRSD),它可以辨别和选择高质量的理由进行蒸馏,从而进一步提高性能。我们进一步提出了一个理由难度(RD)指标来衡量学生模型在给定理由下生成正确答案的能力。与基线相比,通过控制理由的准确性、多样性和难度,我们在三个任务的七个数据集上实现了4.6%的平均改进,同时使用了更少的理由。我们的结果表明,一小部分高质量的理由比整个数据集更能增强学生模型的推理能力。我们的方法有望成为高效CoT蒸馏的一个可能解决方案。我们的代码将在https://github.com/Leon221220/MoRSD发布。

🔬 方法详解

问题定义:现有CoT蒸馏方法主要关注用于训练学生模型的数据量,而忽略了理由(rationales)的质量。这意味着学生模型可能会学习到来自教师模型的噪声或不正确的推理过程,从而限制了其性能提升。现有方法缺乏对理由质量的有效评估和选择机制。

核心思路:MoRSD的核心在于选择高质量的理由进行蒸馏。它通过引入一个自引导的理由选择器,根据理由的准确性、多样性和难度来评估和选择理由。目标是让学生模型学习到更有效、更可靠的推理路径,从而提高其泛化能力。

技术框架:MoRSD包含以下主要模块:1) 理由生成:使用教师模型生成候选理由;2) 理由评估:使用理由选择器评估候选理由的质量,包括准确性、多样性和难度;3) 理由选择:根据评估结果选择高质量的理由;4) 蒸馏训练:使用选择的理由训练学生模型。理由难度(RD)指标用于衡量学生模型在给定理由下生成正确答案的能力。

关键创新:MoRSD的关键创新在于自引导的理由选择器,它能够根据学生模型的学习状态动态地选择合适的理由。与传统的CoT蒸馏方法相比,MoRSD更加关注理由的质量,并且能够根据学生模型的学习进度调整理由的选择策略。理由难度(RD)指标是另一个创新点,它提供了一种量化理由难度的有效方法。

关键设计:理由选择器使用一个预训练的语言模型,并针对理由评估任务进行微调。准确性通过验证理由是否能引导学生模型得到正确答案来衡量。多样性通过计算不同理由之间的语义相似度来衡量,目标是选择覆盖不同推理路径的理由。理由难度(RD)通过衡量学生模型在给定理由下生成正确答案的概率来计算。损失函数包括一个准确性损失、一个多样性损失和一个难度损失,用于优化理由选择器。

📊 实验亮点

实验结果表明,MoRSD在七个数据集上实现了平均4.6%的性能提升,同时使用的理由数量显著减少。例如,在某些数据集上,MoRSD仅使用20%的理由就达到了与基线方法相当甚至更好的性能。这表明MoRSD能够有效地选择高质量的理由,从而提高蒸馏效率和学生模型的推理能力。

🎯 应用场景

MoRSD可应用于各种需要高效模型推理的场景,例如资源受限的设备上的自然语言处理任务、需要快速响应的实时应用等。通过减少所需的理由数量,MoRSD可以降低计算成本和存储需求,使得CoT蒸馏更具实用性。该方法还有助于提高模型的鲁棒性和泛化能力,使其在面对复杂或未知的任务时表现更好。

📄 摘要(原文)

Chain-of-thought (CoT) distillation aims to enhance small language models' (SLMs) reasoning by transferring multi-step reasoning capability from the larger teacher models. However, existing work underestimates rationale quality, focusing primarily on data quantity, which may transfer noisy or incorrect information to the student model. To address the above issues, we proposed \textbf{M}odel-\textbf{O}riented \textbf{R}ationale \textbf{S}election \textbf{D}istillation (MoRSD), which can discern and select high quality rationales for distillation to improve performance further. We further propose a Rationale Difficulty (RD) metric to measure the ability of the student model to generate the correct answer under a given rationale. Compared to the baseline, we achieved 4.6$\%$ average improvement on seven datasets over three tasks, using fewer rationales by controlling their accuracy, diversity, and difficulty. Our results reveal that a small portion of the high quality rationales can enhance the reasoning ability of student models than the entire dataset. Our method promises to be a possible solution for efficient CoT distillation. Our code will be released in https://github.com/Leon221220/MoRSD.