Inference-Time Rethinking with Latent Thought Vectors for Math Reasoning

作者: Deqian Kong, Minglu Zhao, Aoyang Qin, Bo Pang, Chenxin Tao, David Hartmann, Edouardo Honig, Dehong Xu, Amit Kumar, Matt Sarte, Chuan Li, Jianwen Xie, Ying Nian Wu

分类: cs.CL, cs.LG, stat.ML

发布日期: 2026-02-06

💡 一句话要点

提出基于隐变量思维向量的推理时反思框架，提升数学推理能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数学推理 链式思维 隐变量模型 推理时反思 生成式模型

📋 核心要点

现有思维链推理方法缺乏从早期错误中恢复的机制，本文旨在解决这一问题。
核心思想是将推理过程分解为隐变量思维向量和条件解码器，实现迭代式的自我纠正。
实验结果表明，该方法在GSM8K数据集上显著优于更大参数规模的基线模型。

📝 摘要（中文）

本文提出了一种名为“推理时反思”（Inference-Time Rethinking）的生成式框架，该框架通过将声明式的隐变量思维向量与程序式的生成过程解耦，实现迭代式的自我纠正。该方法将推理过程分解为连续的隐变量思维向量（关于什么进行推理）和一个解码器（如何根据该向量来表达推理过程）。隐变量思维向量不仅充当声明式缓冲区，还将推理结构压缩成连续表示，从而消除了表面token的可变性，使得基于梯度的推理策略优化成为可能。该模型将非结构化噪声映射到已学习的有效推理模式流形。在测试时，采用Gibbs采样风格的程序，交替生成候选轨迹并优化隐变量向量以更好地解释该轨迹，从而有效地在隐空间中导航以改进推理策略。在GSM8K数据集上从头开始训练一个0.2B参数的模型，经过30次反思迭代，该方法超越了参数量是其10到15倍的基线模型，包括一个3B参数的模型。这一结果表明，有效的数学推理可以从复杂的推理时计算中产生，而不是仅仅依赖于大量的参数。

🔬 方法详解

问题定义：现有的大语言模型在进行数学推理时，通常采用链式思维（Chain-of-Thought, CoT）方法，即通过生成一系列中间步骤来逐步推导出答案。然而，这种方法在推理过程中一旦出现早期错误，就很难纠正，导致最终结果错误。现有的CoT方法缺乏一种有效的机制来回顾和修正之前的推理步骤，从而限制了其解决复杂数学问题的能力。

核心思路：本文的核心思路是将推理过程解耦为两个部分：一个连续的隐变量思维向量，用于表示推理的内容（what to reason about）；一个解码器，用于根据该隐变量向量生成推理的轨迹（how to reason）。通过这种解耦，模型可以在推理过程中迭代地调整隐变量思维向量，从而修正推理策略。这种方法类似于人类在解决问题时，会不断地反思和调整自己的思路。

技术框架：该框架包含以下几个主要模块：1) 一个先验模型，用于将非结构化的噪声映射到有效的推理模式流形；2) 一个解码器，用于根据隐变量思维向量生成推理轨迹；3) 一个优化过程，用于在测试时迭代地优化隐变量思维向量，以更好地解释生成的推理轨迹。在测试时，采用Gibbs采样风格的程序，交替进行以下两个步骤：首先，根据当前的隐变量思维向量生成一个候选的推理轨迹；然后，优化隐变量思维向量，使其能够更好地解释该推理轨迹。

关键创新：最重要的技术创新点在于引入了隐变量思维向量，并将推理过程解耦为内容和表达两个部分。这种解耦使得模型可以在推理过程中迭代地调整推理策略，从而有效地纠正早期错误。与现有的CoT方法相比，该方法具有更强的鲁棒性和更高的准确率。

关键设计：该模型使用一个变分自编码器（VAE）来学习隐变量思维向量的先验分布。解码器可以使用Transformer等序列生成模型。在优化隐变量思维向量时，可以使用梯度下降等优化算法。损失函数可以包括重构损失（用于确保解码器能够根据隐变量思维向量重构推理轨迹）和KL散度损失（用于约束隐变量思维向量的分布）。具体的参数设置和网络结构需要根据具体的任务进行调整。

📊 实验亮点

在GSM8K数据集上的实验结果表明，使用0.2B参数的模型，经过30次反思迭代后，该方法的性能超越了参数量是其10到15倍的基线模型，包括一个3B参数的模型。这表明，有效的数学推理可以从复杂的推理时计算中产生，而不是仅仅依赖于大量的参数。该结果突出了推理时反思机制的有效性。

🎯 应用场景

该研究成果可应用于各种需要复杂推理的场景，例如数学问题求解、代码生成、逻辑推理等。通过引入推理时反思机制，可以显著提高模型的推理能力和鲁棒性。该方法还可以应用于教育领域，帮助学生更好地理解和解决问题。未来，该方法有望成为通用人工智能的重要组成部分。

📄 摘要（原文）

Standard chain-of-thought reasoning generates a solution in a single forward pass, committing irrevocably to each token and lacking a mechanism to recover from early errors. We introduce Inference-Time Rethinking, a generative framework that enables iterative self-correction by decoupling declarative latent thought vectors from procedural generation. We factorize reasoning into a continuous latent thought vector (what to reason about) and a decoder that verbalizes the trace conditioned on this vector (how to reason). Beyond serving as a declarative buffer, latent thought vectors compress the reasoning structure into a continuous representation that abstracts away surface-level token variability, making gradient-based optimization over reasoning strategies well-posed. Our prior model maps unstructured noise to a learned manifold of valid reasoning patterns, and at test time we employ a Gibbs-style procedure that alternates between generating a candidate trace and optimizing the latent vector to better explain that trace, effectively navigating the latent manifold to refine the reasoning strategy. Training a 0.2B-parameter model from scratch on GSM8K, our method with 30 rethinking iterations surpasses baselines with 10 to 15 times more parameters, including a 3B counterpart. This result demonstrates that effective mathematical reasoning can emerge from sophisticated inference-time computation rather than solely from massive parameter counts.

Inference-Time Rethinking with Latent Thought Vectors for Math Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理