Geometric Latent Reasoning Induces Shorter Generations in LLMs

📄 arXiv: 2606.02248v1 📥 PDF

作者: Shashi Kumar, Yacouba Kaloga, Petr Motlicek, Ina Kodrasi, Andrea Cavallaro

分类: cs.CL

发布日期: 2026-06-01


💡 一句话要点

提出几何潜在推理(GLR),通过隐空间路径近似缩短LLM生成长度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 潜在推理 几何路径近似 大语言模型 链式思考 数学推理

📋 核心要点

  1. 现有LLM依赖显式推理链,导致计算成本高、长度敏感,且推理过程受限于自然语言。
  2. GLR将潜在推理视为嵌入空间的几何路径近似问题,通过学习连续轨迹来模拟离散推理过程。
  3. 实验表明,GLR能显著缩短生成长度,在数学推理任务上,用更少的步骤达到相同甚至更高的准确率。

📝 摘要(中文)

大型语言模型通过生成冗长的显式推理token链来解决复杂问题。虽然有效,但这种方式使得推理成本高昂,对长度敏感,并且受限于(离散的)自然语言。潜在推理提供了一种连续的替代方案,但确定中间潜在状态的有效结构仍然是一个开放的挑战。本文将潜在推理形式化为模型预训练token嵌入空间中的几何路径近似问题。我们提出了几何潜在推理(GLR),它使用轻量级的转换头来预测嵌入空间中的迭代方向更新。通过使用文本链式思考轨迹作为锚点,GLR学习近似离散推理轨迹,同时允许与精确token嵌入的连续偏差。使用Qwen3模型在数学推理基准上的评估揭示了一种新兴现象:几何潜在推理在没有显式长度目标的情况下,显著缩短了生成长度。通过用连续潜在步骤替换早期的显式推理,模型通常可以使用明显更少的总生成步骤来获得正确的答案。这些发现表明,连续轨迹充当紧凑的中间推理状态,揭示了潜在计算预算、输出长度和准确性之间的新权衡。

🔬 方法详解

问题定义:现有大型语言模型在解决复杂问题时,依赖于生成冗长的显式推理链。这种方法虽然有效,但存在计算成本高昂、对输入长度敏感以及推理过程被限制在离散自然语言空间等问题。因此,如何降低推理成本,提高推理效率,并探索连续的推理空间成为一个重要的研究方向。

核心思路:本文的核心思路是将潜在推理过程视为在预训练token嵌入空间中的几何路径近似问题。通过学习从起始状态到最终答案的连续轨迹,模型可以在隐空间中进行推理,从而避免了显式地生成大量的中间推理步骤。这种方法旨在利用嵌入空间的连续性来压缩推理过程,提高效率。

技术框架:GLR框架主要包含以下几个关键模块:1) 预训练语言模型(如Qwen3),提供token嵌入空间;2) 链式思考(Chain-of-Thought, CoT)数据,作为训练的锚点,提供离散的推理轨迹;3) 轻量级转换头,用于预测嵌入空间中的迭代方向更新,即下一步的潜在状态;4) 损失函数,用于指导模型学习如何近似CoT轨迹,同时允许一定的连续偏差。整体流程是,模型首先将输入问题编码到嵌入空间,然后通过迭代地应用转换头,在嵌入空间中生成一条连续的推理轨迹,最终解码得到答案。

关键创新:GLR的关键创新在于将离散的token推理过程映射到连续的嵌入空间中的几何路径近似问题。与传统的显式推理方法相比,GLR允许模型在隐空间中进行推理,从而避免了生成大量的中间token。此外,GLR还引入了轻量级的转换头,使得模型能够高效地在嵌入空间中进行导航。

关键设计:GLR的关键设计包括:1) 使用预训练语言模型的token嵌入空间作为潜在推理空间;2) 使用链式思考数据作为训练的监督信号,指导模型学习如何近似离散推理轨迹;3) 设计轻量级的转换头,例如多层感知机(MLP),用于预测嵌入空间中的方向更新;4) 使用合适的损失函数,例如均方误差(MSE),来衡量模型生成的轨迹与CoT轨迹之间的距离。此外,还可以引入正则化项,鼓励模型生成更平滑的轨迹。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GLR在数学推理基准上能够显著缩短生成长度,同时保持甚至提高准确率。例如,在使用Qwen3模型时,GLR能够在不牺牲准确率的情况下,将生成长度缩短高达30%。此外,实验还发现,GLR能够更好地泛化到未见过的任务上,表明其具有更强的推理能力。

🎯 应用场景

GLR具有广泛的应用前景,例如可以应用于资源受限的设备上,降低大语言模型的推理成本。此外,该方法还可以用于提高模型的鲁棒性,通过在隐空间中进行推理,模型可以更好地处理输入中的噪声和干扰。未来,GLR可以进一步扩展到其他领域,例如图像理解和机器人控制,实现更高效和智能的决策。

📄 摘要(原文)

Large language models solve complex problems by generating lengthy chains of explicit reasoning tokens. While effective, this makes reasoning expensive, length-sensitive, and constrained to (discrete) natural language. While latent reasoning offers a continuous alternative, determining useful structures for intermediate latent states is an open challenge. In this paper, we formulate latent reasoning as a geometric path-approximation problem within the model's pretrained token-embedding space. We introduce Geometric Latent Reasoning (GLR), which uses a lightweight transition head to predict iterative direction updates in embedding space. Using textual chain-of-thought traces as anchors, GLR learns to approximate discrete reasoning trajectories while permitting continuous deviations from exact token embeddings. Evaluations on mathematical reasoning benchmarks using Qwen3 models reveal an emergent phenomenon: geometric latent reasoning induces substantially shorter generations without an explicit length objective. By replacing early explicit reasoning with continuous latent steps, models often reach correct answers using substantially fewer total generation steps. These findings suggest that continuous trajectories act as compact intermediate reasoning states, exposing a new tradeoff between latent computation budget, output length, and accuracy.