Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs

📄 arXiv: 2603.15051v1 📥 PDF

作者: Disha Sheshanarayana, Rajat Subhra Pal, Manjira Sinha, Tirthankar Dasgupta

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-03-16

备注: Accepted at ICLR 2026, LIT Workshop


💡 一句话要点

提出AdaAnchor以解决LLMs推理效率低下问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 潜在推理 自适应机制 大型语言模型 数学推理 效率提升 无声计算 链式思维

📋 核心要点

  1. 现有的Token级链式思维提示方法在推理效率上存在不足,尤其是在处理数学问题时,长中间过程导致输出冗长且成本高。
  2. 论文提出的AdaAnchor框架通过细化潜在锚向量进行无声的迭代计算,并引入自适应停止机制,以提高推理效率。
  3. 实验结果表明,AdaAnchor在准确性上较固定步骤的潜在细化提高了最多5%,同时减少了48-60%的细化步骤,显著降低了生成的标记数量。

📝 摘要(中文)

Token级的链式思维(CoT)提示已成为在大型语言模型(LLMs)中引导多步骤推理的标准方法,尤其是在数学文字问题中。然而,生成长的中间推理过程会增加输出长度和推理成本,并且在模型能够在没有大量表述的情况下得出正确答案时,这种方法可能效率低下。这促使了潜在空间推理方法的出现,将计算转移到隐藏表示中,仅输出最终答案。然而,许多潜在推理方法在推理时依赖于固定数量的潜在细化步骤,这增加了一个需要在模型和数据集之间调整的超参数,以平衡准确性和效率。我们提出了AdaAnchor,一个潜在推理框架,通过细化附加到输入的潜在锚向量进行无声的迭代计算。AdaAnchor进一步结合了一种自适应停止机制,监控锚的稳定性,并在锚动态收敛后终止细化,为简单实例分配较少的步骤,而为更难的实例保留额外的细化步骤,在共享的最大步骤预算下。我们的实证评估显示,AdaAnchor在三个数学文字问题基准上的准确性提高了最多5%,同时在相同的最大步骤预算下减少了48-60%的平均潜在细化步骤。与标准推理基线相比,AdaAnchor通过将计算转移到无声的潜在细化中,减少了生成的标记数量(92-93%),提供了不同的准确性与效率的权衡,显著降低了输出标记的使用。

🔬 方法详解

问题定义:论文要解决的问题是现有Token级链式思维提示方法在处理数学问题时的推理效率低下,尤其是生成长的中间推理过程导致的输出冗长和推理成本高。

核心思路:论文的核心解决思路是提出AdaAnchor框架,通过细化潜在锚向量进行无声的迭代计算,并结合自适应停止机制,监控锚的稳定性,从而在推理过程中动态调整细化步骤。

技术框架:AdaAnchor的整体架构包括输入的潜在锚向量、细化过程中的稳定性监控模块和自适应停止机制。该框架通过迭代细化潜在表示,最终输出答案。

关键创新:最重要的技术创新点在于自适应停止机制的引入,使得细化过程能够根据锚的动态收敛情况自动调整细化步骤,避免了固定步骤带来的效率损失。

关键设计:在关键设计上,AdaAnchor设定了最大步骤预算,并根据实例的难度动态分配细化步骤,确保在保持准确性的同时,显著减少了计算资源的消耗。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,AdaAnchor在三个数学文字问题基准上相比固定步骤的潜在细化提高了最多5%的准确性,同时在相同的最大步骤预算下,平均减少了48-60%的细化步骤。此外,与标准推理基线相比,AdaAnchor减少了92-93%的生成标记,展现出显著的效率提升。

🎯 应用场景

该研究的潜在应用领域包括教育、自动化推理系统和智能问答等。通过提高大型语言模型在数学推理中的效率,AdaAnchor可以在实际应用中显著降低计算成本,提升用户体验,未来可能推动更多基于推理的智能应用的发展。

📄 摘要(原文)

Token-level Chain-of-Thought (CoT) prompting has become a standard way to elicit multi-step reasoning in large language models (LLMs), especially for mathematical word problems. However, generating long intermediate traces increases output length and inference cost, and can be inefficient when the model could arrive at the correct answer without extensive verbalization. This has motivated latent-space reasoning approaches that shift computation into hidden representations and only emit a final answer. Yet, many latent reasoning methods depend on a fixed number of latent refinement steps at inference, adding another hyperparameter that must be tuned across models and datasets to balance accuracy and efficiency. We introduce AdaAnchor, a latent reasoning framework that performs silent iterative computation by refining a set of latent anchor vectors attached to the input. AdaAnchor further incorporates an adaptive halting mechanism that monitors anchor stability across iterations and terminates refinement once the anchor dynamics converge, allocating fewer steps to easier instances while reserving additional refinement steps for harder ones under a shared maximum-step budget. Our empirical evaluation across three mathematical word-problem benchmarks shows that AdaAnchor with adaptive halting yields accuracy gains of up to 5% over fixed-step latent refinement while reducing average latent refinement steps by 48-60% under the same maximum-step budget. Compared to standard reasoning baselines, AdaAnchor achieves large reductions in generated tokens (92-93%) by moving computation into silent latent refinement, offering a different accuracy-efficiency trade-off with substantially lower output-token usage.