Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation

📄 arXiv: 2509.05226v1 📥 PDF

作者: Abdul Waheed, Chancharik Mitra, Laurie Z. Wang, Deva Ramanan, Bhiksha Raj

分类: cs.CL

发布日期: 2025-09-05

备注: 28 Pages


💡 一句话要点

提出难度感知的思维链蒸馏方法,提升数学推理效率并减少冗余token。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链推理 难度感知 蒸馏训练 数学推理 监督微调 直接偏好优化 动态推理 后训练

📋 核心要点

  1. 现有思维链推理方法在简单问题上产生冗余输出,效率较低。
  2. 提出难度感知的推理框架,模型根据问题难度动态调整推理深度。
  3. 通过监督微调和直接偏好优化,模型在减少token的同时保持或提升性能。

📝 摘要(中文)

思维链推理虽然强大,但对于简单问题可能会产生不必要的冗长输出。本文提出了一个难度感知的推理框架,旨在训练模型根据问题的复杂性动态调整推理深度。令人惊讶的是,研究表明,无需任何架构修改,仅通过在精心策划的数据上进行后训练,即可赋予模型这种动态推理能力,这些数据包含长度与问题难度成比例的思维链轨迹。分析表明,通过监督微调(SFT)进行的后训练主要捕获推理长度和格式等模式,而直接偏好优化(DPO)则保留推理准确性,它们的组合既能减少长度,又能保持或提高性能。定量指标和定性评估都证实,模型可以学会“按比例思考”,在简单问题上进行最小化推理,同时保持复杂问题的深度。

🔬 方法详解

问题定义:论文旨在解决数学推理中,现有思维链方法在处理简单问题时产生过多冗余token的问题。现有的思维链方法通常采用固定的推理深度,无论问题难度如何,都会生成相对冗长的推理过程,导致计算资源的浪费和推理效率的降低。

核心思路:论文的核心思路是让模型具备难度感知能力,即能够根据问题的难度动态调整推理的深度。对于简单的问题,模型应该能够快速给出答案,而对于复杂的问题,则需要进行更深入的推理。通过这种方式,可以减少冗余token的生成,提高推理效率。

技术框架:该方法主要通过后训练(post-training)来实现难度感知能力。具体而言,首先构建一个包含不同难度级别数学问题的数据集,并为每个问题生成与其难度相匹配的思维链推理过程。然后,使用监督微调(SFT)和直接偏好优化(DPO)对预训练模型进行后训练。SFT主要用于学习推理长度和格式等模式,而DPO则用于保留推理的准确性。

关键创新:该方法最重要的创新点在于,它能够在不修改模型架构的前提下,赋予模型难度感知的推理能力。通过精心设计的数据集和后训练策略,模型可以学会根据问题的难度动态调整推理深度,从而在保证推理准确性的同时,减少冗余token的生成。

关键设计:关键设计包括:1) 构建难度分级的数据集,确保数据集中包含不同难度级别的数学问题,并为每个问题生成与其难度相匹配的思维链推理过程。2) 使用SFT和DPO进行后训练,SFT用于学习推理长度和格式,DPO用于保留推理准确性。3) 探索SFT和DPO的组合方式,以实现最佳的性能提升。

📊 实验亮点

实验结果表明,该方法能够在减少推理长度的同时,保持或提高推理准确性。通过SFT和DPO的组合,模型可以学会“按比例思考”,在简单问题上进行最小化推理,同时保持复杂问题的深度。定量指标和定性评估都证实了该方法的有效性。

🎯 应用场景

该研究成果可应用于各种需要数学推理的场景,例如自动解题系统、智能辅导系统等。通过减少冗余token的生成,可以提高推理效率,降低计算成本,并提升用户体验。未来,该方法可以推广到其他类型的推理任务中,例如常识推理、逻辑推理等。

📄 摘要(原文)

Chain-of-thought reasoning, while powerful, can produce unnecessarily verbose output for simpler problems. We present a framework for difficulty-aware reasoning that teaches models to dynamically adjust reasoning depth based on problem complexity. Remarkably, we show that models can be endowed with such dynamic inference pathways without any architectural modifications; we simply post-train on data that is carefully curated to include chain-of-thought traces that are proportional in length to problem difficulty. Our analysis reveals that post-training via supervised fine-tuning (SFT) primarily captures patterns like reasoning length and format, while direct preference optimization (DPO) preserves reasoning accuracy, with their combination reducing length and maintaining or improving performance. Both quantitative metrics and qualitative assessments confirm that models can learn to "think proportionally", reasoning minimally on simple problems while maintaining depth for complex ones.