SeLaR: Selective Latent Reasoning in Large Language Models

📄 arXiv: 2604.08299v1 📥 PDF

作者: Renyu Fu, Guibo Luo

分类: cs.CL, cs.AI

发布日期: 2026-04-09

备注: Camera-ready for ACL 2026 (main conference)


💡 一句话要点

提出SeLaR,通过选择性隐空间推理提升大语言模型的推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理 Chain-of-Thought 隐空间推理 软嵌入

📋 核心要点

  1. 现有CoT方法受限于离散token的表达能力,隐空间推理方法存在全局激活干扰和软嵌入坍缩问题。
  2. SeLaR通过熵门控机制选择性地激活软嵌入,仅在低置信度步骤进行隐空间推理。
  3. SeLaR引入熵感知对比正则化,鼓励软嵌入探索多个推理路径,实验表明其优于CoT和现有免训练方法。

📝 摘要(中文)

Chain-of-Thought (CoT) 已成为大语言模型推理的基石,但其有效性受到离散token采样表达能力限制。最近的隐空间推理方法试图通过用软嵌入(token嵌入的概率加权混合)或隐藏状态代替离散token来缓解这一限制,但它们通常存在两个问题:(1)全局激活会将扰动注入到高置信度步骤中,从而损害推理稳定性;(2)软嵌入迅速向最高概率token坍缩,限制了对替代轨迹的探索。为了应对这些挑战,我们提出了SeLaR(选择性隐空间推理),这是一个轻量级且无需训练的框架。SeLaR引入了一种熵门控机制,该机制仅在低置信度步骤中激活软嵌入,同时在高置信度步骤中保留离散解码。此外,我们提出了一种熵感知对比正则化,将软嵌入推离主导(最高概率)token的方向,从而鼓励持续探索多个潜在的推理路径。在五个推理基准上的实验表明,SeLaR始终优于标准CoT和最先进的免训练方法。

🔬 方法详解

问题定义:现有的大语言模型推理方法,特别是基于Chain-of-Thought (CoT) 的方法,依赖于离散的token序列进行推理。这种离散性限制了模型的表达能力,尤其是在需要探索多种可能推理路径的复杂问题中。最近的隐空间推理方法尝试使用软嵌入或隐藏状态来替代离散token,但存在两个主要问题:一是全局激活导致对高置信度步骤的干扰,降低推理稳定性;二是软嵌入容易坍缩到最高概率的token,限制了对其他推理路径的探索。

核心思路:SeLaR的核心思路是选择性地在隐空间进行推理。它认为,并非所有推理步骤都需要隐空间的连续表达能力。对于模型已经有较高置信度的步骤,使用离散token解码即可;而对于置信度较低的步骤,则激活软嵌入进行更灵活的推理。通过这种选择性的激活,SeLaR避免了全局激活带来的干扰,并提高了推理效率。

技术框架:SeLaR框架主要包含两个关键模块:熵门控机制和熵感知对比正则化。首先,熵门控机制根据当前token预测的概率分布的熵值来判断当前步骤的置信度。如果熵值较高(置信度较低),则激活软嵌入;否则,保持离散token解码。其次,熵感知对比正则化用于训练软嵌入,使其远离最高概率token的方向,从而鼓励探索更多的推理路径。整体流程是:输入问题 -> 模型预测token概率分布 -> 熵门控机制判断是否激活软嵌入 -> 如果激活,则使用软嵌入进行推理;否则,使用离散token -> 输出答案。

关键创新:SeLaR的关键创新在于其选择性激活机制和熵感知对比正则化。选择性激活机制避免了全局激活带来的干扰,提高了推理效率和稳定性。熵感知对比正则化则有效地解决了软嵌入坍缩问题,鼓励模型探索更多的推理路径。与现有方法的本质区别在于,SeLaR不是无差别地在所有步骤都使用隐空间推理,而是根据置信度动态地选择是否使用,从而实现了更高效和稳定的推理。

关键设计:熵门控机制的关键在于熵值的阈值设定,这决定了何时激活软嵌入。熵感知对比正则化的关键在于对比损失函数的选择和正则化系数的设定,这影响了软嵌入的探索能力。具体来说,熵门控机制使用一个可调节的阈值来判断熵值是否足够高以激活软嵌入。熵感知对比正则化使用对比损失函数来拉开软嵌入与最高概率token嵌入之间的距离,并使用一个正则化系数来控制正则化的强度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SeLaR在五个推理基准测试中均优于标准CoT和最先进的免训练方法。具体性能数据未知,但论文强调SeLaR在各种推理任务中表现出一致的优越性,证明了其选择性隐空间推理的有效性。

🎯 应用场景

SeLaR具有广泛的应用前景,可以应用于各种需要复杂推理的场景,例如数学问题求解、常识推理、代码生成等。通过提升大语言模型的推理能力,SeLaR可以提高这些应用场景的性能和可靠性。未来,SeLaR可以进一步扩展到其他模态,例如图像和语音,从而实现更强大的多模态推理能力。

📄 摘要(原文)

Chain-of-Thought (CoT) has become a cornerstone of reasoning in large language models, yet its effectiveness is constrained by the limited expressiveness of discrete token sampling. Recent latent reasoning approaches attempt to alleviate this limitation by replacing discrete tokens with soft embeddings (probability-weighted mixtures of token embeddings) or hidden states, but they commonly suffer from two issues: (1) global activation injects perturbations into high-confidence steps, impairing reasoning stability; and (2) soft embeddings quickly collapse toward the highest-probability token, limiting exploration of alternative trajectories. To address these challenges, we propose SeLaR (Selective Latent Reasoning), a lightweight and training-free framework. SeLaR introduces an entropy-gated mechanism that activates soft embeddings only at low-confidence steps, while preserving discrete decoding at high-confidence steps. Additionally, we propose an entropy-aware contrastive regularization that pushes soft embeddings away from the dominant (highest-probability) token's direction, encouraging sustained exploration of multiple latent reasoning paths. Experiments on five reasoning benchmarks demonstrate that SeLaR consistently outperforms standard CoT and state-of-the-art training-free methods.