Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation

📄 arXiv: 2509.05226v1 📥 PDF

作者: Abdul Waheed, Chancharik Mitra, Laurie Z. Wang, Deva Ramanan, Bhiksha Raj

分类: cs.CL

发布日期: 2025-09-05

备注: 28 Pages


💡 一句话要点

提出难度感知的CoT蒸馏方法,提升数学推理效率并减少冗余token生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链推理 难度感知 蒸馏训练 数学推理 模型优化

📋 核心要点

  1. 现有思维链推理方法在简单问题上产生冗长的输出,效率较低。
  2. 提出难度感知的推理框架,使模型根据问题复杂度动态调整推理深度。
  3. 通过监督微调和直接偏好优化,模型在减少推理长度的同时保持或提高性能。

📝 摘要(中文)

本文提出了一种难度感知的推理框架,旨在训练模型根据问题复杂度动态调整推理深度。研究表明,无需修改模型架构,仅通过在精心策划的数据上进行后训练,即可赋予模型这种动态推理能力。该数据集包含与问题难度成比例的思维链(Chain-of-Thought, CoT)轨迹。分析表明,监督微调(SFT)主要捕获推理长度和格式等模式,而直接偏好优化(DPO)则保留推理准确性。两者的结合既能减少推理长度,又能保持甚至提高性能。定量指标和定性评估均证实,模型可以学习“按比例思考”,在简单问题上进行最小化推理,同时保持复杂问题的推理深度。

🔬 方法详解

问题定义:论文旨在解决现有Chain-of-Thought (CoT) 方法在解决数学问题时,对于简单问题也生成冗长推理过程的问题。现有方法的痛点在于,无论问题难度如何,模型都倾向于生成固定长度的推理链,导致计算资源的浪费和效率低下。

核心思路:论文的核心思路是训练模型具备“难度感知”能力,即模型能够根据问题的复杂程度动态调整推理的深度。对于简单问题,模型生成较短的推理链;对于复杂问题,模型生成较长的推理链。这样可以提高推理效率,并减少不必要的计算开销。

技术框架:该方法主要通过后训练(post-training)实现,无需修改模型架构。具体流程包括:1) 构建一个包含不同难度数学问题及其对应CoT推理轨迹的数据集,其中推理轨迹的长度与问题难度成正比。2) 使用监督微调(SFT)和直接偏好优化(DPO)对模型进行后训练。SFT主要用于学习推理链的长度和格式,DPO主要用于保持推理的准确性。3) 将SFT和DPO结合使用,以达到减少推理长度和保持/提高性能的目的。

关键创新:该方法最重要的创新点在于提出了“难度感知”的推理思想,并证明了可以通过后训练的方式,在不修改模型架构的前提下,赋予模型这种能力。与现有方法相比,该方法能够更有效地利用计算资源,并提高推理效率。

关键设计:在数据构建方面,需要仔细设计不同难度等级的数学问题,并生成对应长度的CoT推理轨迹。在后训练方面,需要平衡SFT和DPO的作用,以确保模型既能学习到推理链的长度和格式,又能保持推理的准确性。具体的参数设置和损失函数选择需要根据实际情况进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过难度感知的CoT蒸馏方法,模型能够在简单问题上减少推理长度,同时保持或提高在复杂问题上的性能。具体而言,模型在减少token生成数量的同时,在数学问题解决任务上取得了与基线模型相当甚至更好的准确率。定性分析也表明,模型能够根据问题难度动态调整推理深度。

🎯 应用场景

该研究成果可应用于各种需要数学推理的场景,例如智能客服、教育辅导、科学计算等。通过减少冗余的推理步骤,可以提高系统的响应速度和效率,降低计算成本。此外,该方法还可以推广到其他类型的推理任务中,例如常识推理、逻辑推理等,具有广阔的应用前景。

📄 摘要(原文)

Chain-of-thought reasoning, while powerful, can produce unnecessarily verbose output for simpler problems. We present a framework for difficulty-aware reasoning that teaches models to dynamically adjust reasoning depth based on problem complexity. Remarkably, we show that models can be endowed with such dynamic inference pathways without any architectural modifications; we simply post-train on data that is carefully curated to include chain-of-thought traces that are proportional in length to problem difficulty. Our analysis reveals that post-training via supervised fine-tuning (SFT) primarily captures patterns like reasoning length and format, while direct preference optimization (DPO) preserves reasoning accuracy, with their combination reducing length and maintaining or improving performance. Both quantitative metrics and qualitative assessments confirm that models can learn to "think proportionally", reasoning minimally on simple problems while maintaining depth for complex ones.