SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning LLMs

📄 arXiv: 2510.05069v2 📥 PDF

作者: Dachuan Shi, Abedelkadir Asi, Keying Li, Xiangchi Yuan, Leyan Pan, Wenke Lee, Wen Xiao

分类: cs.CL, cs.AI

发布日期: 2025-10-06 (更新: 2025-12-06)

备注: Code: https://github.com/sdc17/SwiReasoning, Website: https://swireasoning.github.io/


💡 一句话要点

提出SwiReasoning,通过显隐式推理切换,提升LLM推理性能和效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理 显式推理 隐式推理 动态切换 置信度估计 token效率

📋 核心要点

  1. 纯隐式推理易扩散搜索分布,引入噪声,阻碍收敛,影响准确率。
  2. SwiReasoning动态切换显隐式推理,基于置信度引导,平衡探索与利用。
  3. SwiReasoning限制切换次数,抑制过度思考,提升token效率和准确率。

📝 摘要(中文)

本文提出SwiReasoning,一种无需训练的LLM推理框架,旨在解决纯隐式推理中存在的搜索分布扩散、噪声引入以及过度思考等问题。SwiReasoning的核心创新在于动态切换显式和隐式推理,切换策略基于从下一个token分布的熵趋势估计的块状置信度,以平衡探索和利用,并促进及时收敛。此外,通过限制思考块切换的最大次数,SwiReasoning能够抑制过度思考,并在不同问题难度下提高token效率。在广泛使用的数学和STEM基准测试中,SwiReasoning在不同模型系列和规模的推理LLM中,平均准确率提高了1.5%-2.8%。在预算受限的情况下,SwiReasoning的平均token效率提高了56%-79%,且随着预算收紧,收益更大。

🔬 方法详解

问题定义:现有的大语言模型(LLM)推理方法,特别是纯隐式推理,虽然具有token效率高的潜力,但存在搜索空间过大、容易引入噪声以及过度思考的问题。这些问题导致模型难以收敛到高置信度的解决方案,从而降低了推理的准确性和效率。现有方法要么依赖于显式的思维链,受限于自然语言的表达能力,要么在隐式空间中漫无目的地探索,浪费计算资源。

核心思路:SwiReasoning的核心思路是结合显式推理和隐式推理的优点,通过动态切换这两种推理模式来平衡探索和利用。显式推理提供明确的推理步骤,有助于引导搜索方向;隐式推理则允许更丰富的单步信息,提高token效率。通过在两者之间切换,SwiReasoning旨在更快地找到高质量的解决方案,并避免过度思考。

技术框架:SwiReasoning框架主要包含以下几个阶段:1) 输入问题:将问题输入LLM。2) 初始推理:LLM首先进行初始推理,可以是显式或隐式推理。3) 置信度估计:基于下一个token分布的熵趋势,估计当前推理块的置信度。4) 推理模式切换:根据置信度动态切换推理模式,如果置信度高,则继续当前模式;如果置信度低,则切换到另一种模式。5) 迭代推理:重复步骤3和4,直到达到最大切换次数或满足停止条件。6) 输出答案:输出最终的推理结果。

关键创新:SwiReasoning最关键的创新点在于动态切换显式和隐式推理的机制。与传统的固定推理模式相比,SwiReasoning能够根据问题的具体情况和推理过程中的置信度,自适应地选择最合适的推理模式。这种动态切换机制使得模型能够在探索和利用之间取得更好的平衡,从而提高推理的准确性和效率。

关键设计:SwiReasoning的关键设计包括:1) 基于熵趋势的置信度估计方法:通过分析下一个token分布的熵变化来判断当前推理块的置信度。熵的降低表示模型对下一步的预测更有把握,置信度更高。2) 最大切换次数的限制:为了防止过度思考,SwiReasoning限制了显式和隐式推理模式之间的最大切换次数。这个参数需要根据具体问题进行调整。3) 块大小的选择:推理块的大小会影响置信度估计的准确性。较小的块大小可以更及时地反映置信度的变化,但也会增加计算成本。4) 切换阈值的设定:需要设定一个阈值来判断何时进行推理模式的切换。阈值的设定会影响探索和利用的平衡。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,SwiReasoning在数学和STEM基准测试中,平均准确率提升了1.5%-2.8%,且在token预算受限的情况下,token效率提升了56%-79%。尤其是在预算非常紧张的情况下,SwiReasoning的优势更加明显,证明了其在资源受限场景下的实用性。

🎯 应用场景

SwiReasoning可应用于各种需要复杂推理的场景,例如数学问题求解、科学推理、代码生成和逻辑推理等。该方法能够提高LLM在这些任务中的准确性和效率,降低计算成本,并有望推动LLM在实际应用中的更广泛应用,例如智能客服、自动化报告生成和决策支持系统。

📄 摘要(原文)

Recent work shows that, beyond discrete reasoning through explicit chain-of-thought steps, which are limited by the boundaries of natural languages, large language models (LLMs) can also reason continuously in latent space, allowing richer information per step and thereby improving token efficiency. Despite this promise, latent reasoning still faces two challenges, especially in training-free settings: 1) purely latent reasoning broadens the search distribution by maintaining multiple implicit paths, which diffuses probability mass, introduces noise, and impedes convergence to a single high-confidence solution, thereby hurting accuracy; and 2) overthinking persists even without explicit text, wasting tokens and degrading efficiency. To address these issues, we introduce SwiReasoning, a training-free framework for LLM reasoning which features two key innovations: 1) SwiReasoning dynamically switches between explicit and latent reasoning, guided by block-wise confidence estimated from entropy trends in next-token distributions, to balance exploration and exploitation and promote timely convergence. 2) By limiting the maximum number of thinking-block switches, SwiReasoning curbs overthinking and improves token efficiency across varying problem difficulties. On widely used mathematics and STEM benchmarks, SwiReasoning consistently improves average accuracy by 1.5%-2.8% across reasoning LLMs of different model families and scales. Furthermore, under constrained budgets, SwiReasoning improves average token efficiency by 56%-79%, with larger gains as budgets tighten.