Emergent Search and Backtracking in Latent Reasoning Models

作者: Jasmine Cui, Charles Ye

分类: cs.CL, cs.AI

发布日期: 2026-02-08

💡 一句话要点

研究表明，隐式推理模型在潜在空间中涌现搜索和回溯能力，提升问答性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 隐式推理 潜在空间 搜索策略 回溯机制 Transformer 问答系统 自适应学习

📋 核心要点

现有推理LLM依赖显式的思维链，计算成本高且易出错，限制了其效率和泛化能力。
论文研究隐式推理模型，该模型在潜在空间中进行推理，无需显式的中间步骤。
实验表明，隐式推理模型自发学习搜索和回溯机制，显著提升多项选择问答任务的准确率。

📝 摘要（中文）

当语言模型在没有文字的情况下思考时会发生什么？标准的推理LLM将中间步骤表达为思维链；而隐式推理Transformer（LRT）则完全在连续隐藏空间中进行推理论证。我们研究了一个LRT，在多项选择QA基准测试中解码模型在每个步骤中不断演变的信念。我们发现该模型在潜在空间中自发地学习了一种结构化的搜索过程。推理论证遵循一致的轨迹：一个探索阶段，概率质量在候选答案中扩散；对领先者的初步承诺；以及收敛或回溯。回溯很普遍（32%的实例），有益（相对于非回溯实例，准确率提高34%），并且主要从语义上最接近的干扰项转向正确答案。搜索是自适应的：用不合理的替代方案替换干扰项可将探索缩短54%。隐式推理模型在激活空间中实现了思维链通过文字实现的效果：犯错、注意并恢复的能力。

🔬 方法详解

问题定义：现有的大型语言模型（LLMs）在进行复杂推理时，通常依赖于显式的“思维链”（Chain-of-Thought, CoT）方法，即逐步生成中间推理步骤。然而，这种方法存在一些痛点：一是计算成本高昂，因为需要生成大量的文本；二是容易出错，因为中间步骤的错误会累积并影响最终结果；三是泛化能力受限，因为模型可能过度依赖于特定的提示或格式。

核心思路：本论文的核心思路是探索一种“隐式推理”模型，即Latent Reasoning Transformer (LRT)。LRT不显式地生成中间推理步骤，而是在连续的潜在空间中进行推理论证。通过分析LRT在潜在空间中的行为，研究人员发现模型能够自发地学习到一种结构化的搜索过程，包括探索、承诺和回溯等阶段。这种隐式推理方式有望克服CoT方法的局限性，提高推理效率和鲁棒性。

技术框架：研究人员使用一个LRT模型，并在多项选择问答（QA）基准测试上对其进行评估。在每个推理步骤中，研究人员解码模型在潜在空间中的“信念”，即对每个候选答案的概率分布。通过分析这些概率分布的变化，研究人员可以观察到模型在潜在空间中的搜索过程。整个流程可以概括为：输入问题和候选答案 -> LRT在潜在空间中进行推理 -> 解码潜在空间中的信念 -> 分析信念的变化，识别探索、承诺和回溯等阶段 -> 输出最终答案。

关键创新：本论文最重要的技术创新点在于揭示了LRT模型在潜在空间中涌现出的搜索和回溯能力。与传统的CoT方法相比，LRT不需要显式地生成中间推理步骤，而是通过在潜在空间中的连续变换来实现推理。这种隐式推理方式更加高效和鲁棒，并且能够自适应地调整搜索策略。此外，研究人员还发现，LRT的回溯行为能够有效地纠正错误，从而提高推理准确率。

关键设计：论文的关键设计包括：1) 使用Transformer架构作为LRT的基础模型；2) 在多项选择QA任务上训练LRT；3) 设计一种解码方法，将潜在空间中的表示转换为对候选答案的概率分布；4) 定义了探索、承诺和回溯等阶段的指标，用于分析LRT在潜在空间中的行为；5) 通过替换干扰项来评估LRT的自适应搜索能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LRT模型在潜在空间中自发地学习了一种结构化的搜索过程，包括探索、承诺和回溯等阶段。回溯行为在32%的实例中出现，并且能够带来34%的准确率提升。此外，通过替换干扰项，研究人员发现LRT能够自适应地调整搜索策略，将探索时间缩短54%。

🎯 应用场景

该研究成果可应用于各种需要复杂推理的任务，例如智能客服、自动驾驶和医疗诊断。通过利用隐式推理模型，可以提高这些应用在复杂环境下的决策能力和鲁棒性。未来，该研究方向有望推动通用人工智能的发展，使机器能够像人类一样进行高效、灵活的推理。

📄 摘要（原文）

What happens when a language model thinks without words? Standard reasoning LLMs verbalize intermediate steps as chain-of-thought; latent reasoning transformers (LRTs) instead perform deliberation entirely in continuous hidden space. We investigate an LRT, decoding the model's evolving beliefs at every step on a multiple-choice QA benchmark. We find that the model spontaneously learns a structured search process in latent space. Deliberation follows a consistent trajectory: an exploration phase where probability mass spreads across candidates, tentative commitment to a frontrunner, and either convergence or backtracking. Backtracking is prevalent (32% of instances), beneficial (34% accuracy gain over non-backtracking instances), and predominantly directed away from the semantically closest distractor toward the correct answer. The search is adaptive: replacing distractors with implausible alternatives shortens exploration by 54%. Latent reasoning models achieve in activation space what chain-of-thought achieves through words: the ability to be wrong, notice, and recover.

Emergent Search and Backtracking in Latent Reasoning Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理