Inference-Time Rethinking with Latent Thought Vectors for Math Reasoning

📄 arXiv: 2602.06584v1 📥 PDF

作者: Deqian Kong, Minglu Zhao, Aoyang Qin, Bo Pang, Chenxin Tao, David Hartmann, Edouardo Honig, Dehong Xu, Amit Kumar, Matt Sarte, Chuan Li, Jianwen Xie, Ying Nian Wu

分类: cs.CL, cs.LG, stat.ML

发布日期: 2026-02-06


💡 一句话要点

提出基于隐变量思维向量的推理时反思框架,提升数学推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数学推理 链式思维 隐变量模型 推理时反思 生成式模型

📋 核心要点

  1. 现有思维链推理方法缺乏从早期错误中恢复的机制,本文旨在解决这一问题。
  2. 核心思想是将推理过程分解为隐变量思维向量和条件解码器,实现迭代式的自我纠正。
  3. 实验结果表明,该方法在GSM8K数据集上显著优于更大参数规模的基线模型。

📝 摘要(中文)

本文提出了一种名为“推理时反思”(Inference-Time Rethinking)的生成式框架,该框架通过将声明式的隐变量思维向量与程序式的生成过程解耦,实现迭代式的自我纠正。该方法将推理过程分解为连续的隐变量思维向量(关于什么进行推理)和一个解码器(如何根据该向量来表达推理过程)。隐变量思维向量不仅充当声明式缓冲区,还将推理结构压缩成连续表示,从而消除了表面token的可变性,使得基于梯度的推理策略优化成为可能。该模型将非结构化噪声映射到已学习的有效推理模式流形。在测试时,采用Gibbs采样风格的程序,交替生成候选轨迹并优化隐变量向量以更好地解释该轨迹,从而有效地在隐空间中导航以改进推理策略。在GSM8K数据集上从头开始训练一个0.2B参数的模型,经过30次反思迭代,该方法超越了参数量是其10到15倍的基线模型,包括一个3B参数的模型。这一结果表明,有效的数学推理可以从复杂的推理时计算中产生,而不是仅仅依赖于大量的参数。

🔬 方法详解

问题定义:现有的大语言模型在进行数学推理时,通常采用链式思维(Chain-of-Thought, CoT)方法,即通过生成一系列中间步骤来逐步推导出答案。然而,这种方法在推理过程中一旦出现早期错误,就很难纠正,导致最终结果错误。现有的CoT方法缺乏一种有效的机制来回顾和修正之前的推理步骤,从而限制了其解决复杂数学问题的能力。

核心思路:本文的核心思路是将推理过程解耦为两个部分:一个连续的隐变量思维向量,用于表示推理的内容(what to reason about);一个解码器,用于根据该隐变量向量生成推理的轨迹(how to reason)。通过这种解耦,模型可以在推理过程中迭代地调整隐变量思维向量,从而修正推理策略。这种方法类似于人类在解决问题时,会不断地反思和调整自己的思路。

技术框架:该框架包含以下几个主要模块:1) 一个先验模型,用于将非结构化的噪声映射到有效的推理模式流形;2) 一个解码器,用于根据隐变量思维向量生成推理轨迹;3) 一个优化过程,用于在测试时迭代地优化隐变量思维向量,以更好地解释生成的推理轨迹。在测试时,采用Gibbs采样风格的程序,交替进行以下两个步骤:首先,根据当前的隐变量思维向量生成一个候选的推理轨迹;然后,优化隐变量思维向量,使其能够更好地解释该推理轨迹。

关键创新:最重要的技术创新点在于引入了隐变量思维向量,并将推理过程解耦为内容和表达两个部分。这种解耦使得模型可以在推理过程中迭代地调整推理策略,从而有效地纠正早期错误。与现有的CoT方法相比,该方法具有更强的鲁棒性和更高的准确率。

关键设计:该模型使用一个变分自编码器(VAE)来学习隐变量思维向量的先验分布。解码器可以使用Transformer等序列生成模型。在优化隐变量思维向量时,可以使用梯度下降等优化算法。损失函数可以包括重构损失(用于确保解码器能够根据隐变量思维向量重构推理轨迹)和KL散度损失(用于约束隐变量思维向量的分布)。具体的参数设置和网络结构需要根据具体的任务进行调整。

📊 实验亮点

在GSM8K数据集上的实验结果表明,使用0.2B参数的模型,经过30次反思迭代后,该方法的性能超越了参数量是其10到15倍的基线模型,包括一个3B参数的模型。这表明,有效的数学推理可以从复杂的推理时计算中产生,而不是仅仅依赖于大量的参数。该结果突出了推理时反思机制的有效性。

🎯 应用场景

该研究成果可应用于各种需要复杂推理的场景,例如数学问题求解、代码生成、逻辑推理等。通过引入推理时反思机制,可以显著提高模型的推理能力和鲁棒性。该方法还可以应用于教育领域,帮助学生更好地理解和解决问题。未来,该方法有望成为通用人工智能的重要组成部分。

📄 摘要(原文)

Standard chain-of-thought reasoning generates a solution in a single forward pass, committing irrevocably to each token and lacking a mechanism to recover from early errors. We introduce Inference-Time Rethinking, a generative framework that enables iterative self-correction by decoupling declarative latent thought vectors from procedural generation. We factorize reasoning into a continuous latent thought vector (what to reason about) and a decoder that verbalizes the trace conditioned on this vector (how to reason). Beyond serving as a declarative buffer, latent thought vectors compress the reasoning structure into a continuous representation that abstracts away surface-level token variability, making gradient-based optimization over reasoning strategies well-posed. Our prior model maps unstructured noise to a learned manifold of valid reasoning patterns, and at test time we employ a Gibbs-style procedure that alternates between generating a candidate trace and optimizing the latent vector to better explain that trace, effectively navigating the latent manifold to refine the reasoning strategy. Training a 0.2B-parameter model from scratch on GSM8K, our method with 30 rethinking iterations surpasses baselines with 10 to 15 times more parameters, including a 3B counterpart. This result demonstrates that effective mathematical reasoning can emerge from sophisticated inference-time computation rather than solely from massive parameter counts.