D-COT: Disciplined Chain-of-Thought Learning for Efficient Reasoning in Small Language Models

📄 arXiv: 2602.21786v1 📥 PDF

作者: Shunsuke Ubukata

分类: cs.CL

发布日期: 2026-02-25

备注: 9 pages, 3 figures. Code: https://github.com/gitpullpull/DisciplinedChainOfThought | Benchmarks: https://huggingface.co/datasets/gitpullpull/D-CoT-Benchmarks | Dataset: https://huggingface.co/datasets/gitpullpull/D-CoT-datasets


💡 一句话要点

提出D-CoT,通过控制标签约束思维链,提升小模型推理效率与准确率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链 小模型 知识蒸馏 控制标签 推理优化

📋 核心要点

  1. 现有CoT蒸馏方法导致小模型“过度思考”,降低性能并增加计算成本。
  2. D-CoT通过控制标签引导模型进行结构化推理,优化思维链轨迹。
  3. 实验表明,D-CoT在显著提升模型性能的同时,降低了计算成本。

📝 摘要(中文)

本文提出了一种名为Disciplined Chain-of-Thought (D-CoT) 的新框架,旨在解决大型语言模型 (LLM) 的思维链 (CoT) 蒸馏在小型语言模型 (SLM) 中引起的“过度思考”问题,该问题会导致性能下降和过多的 token 消耗。D-CoT 通过使用控制标签(例如 用于事实核查, 用于多角度探索)作为辅助支架,在训练期间强制执行结构化的推理过程。通过优化 CoT 轨迹,D-CoT 抑制了推理漂移,同时实现了 token 减少和性能提升。在 Qwen3-8B 上的实验表明,仅使用 5,000 个训练样本,D-CoT 就能显著提高 GPQA-diamond 的准确率 9.9%,MMLU-Pro (0-shot) 的准确率 9.1%,同时大幅降低计算成本。此外,实验还证实该模型内化了这种有约束的思维结构,即使在推理过程中没有显式的控制标签也能保持高性能。

🔬 方法详解

问题定义:现有方法,特别是从大型语言模型蒸馏思维链(Chain-of-Thought, CoT)到小型语言模型时,常常导致小模型产生“过度思考”的现象。这种过度思考不仅没有提升性能,反而会降低准确率,并且消耗过多的计算资源(token)。因此,如何让小模型更有效地利用CoT进行推理是一个关键问题。

核心思路:D-CoT的核心思路是通过引入控制标签来规范思维链的生成过程。这些控制标签充当辅助支架,引导模型在推理过程中执行特定的操作,例如事实核查()或多角度探索()。通过这种方式,D-CoT旨在优化CoT的轨迹,避免模型在推理过程中出现不必要的漂移,从而提高效率和准确率。

技术框架:D-CoT的整体框架包括以下几个关键步骤:首先,使用带有控制标签的提示(prompt)生成训练数据。然后,使用这些数据对小型语言模型进行训练,目标是让模型学习如何在不同的控制标签下生成合适的思维链。在推理阶段,可以选择使用或不使用控制标签,实验表明即使不使用控制标签,模型也能保持较高的性能。

关键创新:D-CoT的最重要的创新点在于引入了控制标签来显式地规范思维链的生成过程。与传统的CoT方法相比,D-CoT不是简单地让模型自由地生成思维链,而是通过控制标签引导模型进行更加结构化和有针对性的推理。这种方法能够有效地抑制推理漂移,提高推理效率和准确率。

关键设计:D-CoT的关键设计包括控制标签的选择和使用方式。论文中使用了等标签,分别用于引导模型进行事实核查和多角度探索。这些标签的选择需要根据具体的任务进行调整。此外,论文还研究了在推理阶段是否使用控制标签的影响,实验表明即使不使用控制标签,模型也能保持较高的性能,这表明模型已经内化了这种有约束的思维结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,D-CoT在Qwen3-8B模型上取得了显著的性能提升。仅使用5,000个训练样本,D-CoT在GPQA-diamond数据集上的准确率提高了9.9%,在MMLU-Pro (0-shot) 数据集上的准确率提高了9.1%。同时,D-CoT还大幅降低了计算成本,证明了其在提升推理效率方面的有效性。

🎯 应用场景

D-CoT方法可应用于各种需要复杂推理的自然语言处理任务,例如问答系统、知识图谱推理和常识推理。该方法能够提升小模型的推理能力,使其在资源受限的环境中也能高效准确地完成任务,具有广泛的应用前景。

📄 摘要(原文)

Chain-of-Thought (CoT) distillation from Large Language Models (LLMs) often induces "overthinking" in Small Language Models (SLMs), leading to performance degradation and excessive token consumption. In this study, we propose Disciplined Chain-of-Thought (D-CoT), a novel framework that enforces a structured reasoning process using control tags -- such as for fact-checking and for multi-perspective exploration -- as auxiliary scaffolding during training. By optimizing the CoT trajectory, D-CoT suppresses reasoning drift and simultaneously achieves token reduction and performance improvement. We demonstrate the efficacy of our approach on Qwen3-8B: with only 5,000 training samples, D-CoT significantly boosts accuracy on GPQA-diamond by 9.9% and MMLU-Pro (0-shot) by 9.1%, while drastically reducing computational costs. Furthermore, we confirm that the model internalizes this disciplined thought structure, maintaining high performance even without explicit control tags during inference.