DenseSteer: Steering Small Language Models towards Dense Math Reasoning

📄 arXiv: 2605.29247v1 📥 PDF

作者: Yang Ouyang, Shuhang Lin, Jung-Eun Kim

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-05-28

备注: ICML 2026


💡 一句话要点

DenseSteer:引导小语言模型实现高密度数学推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数学推理 小语言模型 思维链 密集推理 推理时引导

📋 核心要点

  1. 小模型在多步数学推理任务中表现不佳,缺乏有效的推理策略。
  2. DenseSteer通过引导小模型学习高信息密度的推理模式,提升推理能力。
  3. 实验表明,DenseSteer在不增加计算成本的情况下,显著提升了小模型的数学推理准确性。

📝 摘要(中文)

大型语言模型(LLMs)展现出强大的思维链(CoT)推理能力,而较小的模型(<= 30亿参数)在多步推理任务上的表现明显不佳。通过对Qwen-2.5模型家族在数学推理基准上的实证分析,我们发现更熟练的推理与更少的推理步骤相关,但每一步的信息密度更高,我们称之为密集推理。受此观察的启发,我们提出DenseSteer,一种无需训练的推理时引导框架,通过将内部表示调整为密集推理模式来增强小模型的推理能力。实验表明,我们的方法在不增加token级别的负对数似然的情况下,实现了持续的准确性提升,突出了密集推理作为解决数学问题的有效结构化方法。

🔬 方法详解

问题定义:论文旨在解决小规模语言模型在复杂数学推理任务中表现不佳的问题。现有方法,如直接应用大型模型的思维链(CoT)策略,在小模型上效果有限,因为小模型难以生成高质量的中间推理步骤,导致推理链条过长且信息稀疏。

核心思路:论文的核心思路是观察到更优秀的数学推理过程往往步骤更少,但每一步包含的信息密度更高,即“密集推理”。因此,通过引导小模型学习这种高密度推理模式,可以提升其推理能力。这种引导是在推理阶段进行的,无需额外的训练。

技术框架:DenseSteer是一个推理时引导框架,其核心在于调制小语言模型的内部表示。具体来说,该框架首先识别模型在推理过程中的关键中间层表示,然后通过某种方式(论文中未明确说明具体调制方式,属于未知细节)调整这些表示,使其更接近于“密集推理”的模式。这种调整旨在压缩推理步骤,同时增加每一步骤的信息量。

关键创新:DenseSteer的关键创新在于提出了“密集推理”的概念,并将其作为提升小模型推理能力的一种有效策略。与传统的思维链方法不同,DenseSteer不依赖于生成冗长的推理步骤,而是专注于提高每一步骤的质量和信息密度。此外,该方法是训练无关的,可以直接应用于预训练的小模型,无需额外的训练成本。

关键设计:论文中没有详细描述关键的参数设置、损失函数或网络结构等技术细节。关于如何具体调制内部表示以实现“密集推理”,以及如何选择合适的中间层进行调制,这些细节属于未知信息。未来的研究可能需要进一步探索这些方面。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DenseSteer能够在不增加token级别负对数似然的情况下,显著提升小规模语言模型在数学推理任务上的准确性。具体的性能提升数据和对比基线在摘要中没有明确给出,属于未知信息。但强调了该方法在不增加计算成本的前提下,实现了持续的准确性提升。

🎯 应用场景

DenseSteer具有广泛的应用前景,可以应用于各种需要复杂推理的场景,例如自动定理证明、代码生成、知识图谱推理等。该方法可以有效提升小规模语言模型在资源受限环境下的推理能力,降低部署成本,并促进边缘计算和移动设备上的智能应用发展。此外,DenseSteer的“密集推理”思想也可以启发其他领域的模型优化和知识压缩研究。

📄 摘要(原文)

Large language models (LLMs) demonstrate strong chain-of-thought (CoT) reasoning abilities, while smaller models (<= 3B parameters) significantly underperform on multi-step reasoning tasks. Based on empirical analyses of the Qwen-2.5 model family on math reasoning benchmarks, we find that more proficient reasoning is associated with fewer reasoning steps but higher information density per step, a property we term Dense Reasoning. Motivated by this observation, we propose DenseSteer, a training-free inference-time steering framework that enhances small-model reasoning by modulating internal representations toward dense reasoning patterns. Experiments show that our method yields consistent accuracy improvements without increasing token-level Negative Log-Likelihood, highlighting dense reasoning as an effective structural approach to mathematical problem solving.