Latent Reasoning with Normalizing Flows

📄 arXiv: 2606.06447v1 📥 PDF

作者: Guancheng Tu, Xiangjun Fu, Suhao Yu, Yao Tang, Haoqiang Kang, Lianhui Qin, Yizhe Zhang, Jiatao Gu

分类: cs.CL, cs.LG

发布日期: 2026-06-04


💡 一句话要点

提出NF-CoT框架以提升潜在推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 潜在推理 归一化流 思维链 自回归模型 代码生成 概率解码 策略梯度优化

📋 核心要点

  1. 现有的潜在推理方法往往无法有效利用自回归语言模型中的关键优势,如左到右生成和概率采样。
  2. NF-CoT框架通过归一化流建模连续思维,允许在不牺牲生成能力的情况下进行中间计算。
  3. 在代码生成基准上,NF-CoT显著提高了通过率,并减少了中间推理的成本。

📝 摘要(中文)

大型语言模型通过生成明确的思维链(CoT)来改善推理能力,强调了中间计算的重要性。然而,文本化的CoT限制了计算的灵活性。潜在推理提供了一种更高带宽的替代方案,通过在承诺文本之前在紧凑的连续状态中执行中间计算。现有的潜在推理方法往往牺牲了CoT在自回归语言模型中的一些关键优势。本文提出了NF-CoT框架,通过使用归一化流来建模连续思维,保留了这些优势。NF-CoT在LLM骨干中实例化了TARFlow风格的归一化流,定义了一个可处理的概率模型,支持直接的策略梯度优化。实验结果表明,NF-CoT在代码生成基准上显著提高了通过率,同时大幅降低了中间推理成本。

🔬 方法详解

问题定义:本文旨在解决现有潜在推理方法在自回归语言模型中无法有效利用的关键优势问题,如左到右生成和概率采样。现有方法在中间计算时往往需要通过离散的文本化过程,限制了灵活性和效率。

核心思路:NF-CoT框架的核心思想是通过归一化流建模连续思维,允许在生成文本之前进行中间计算,从而提高推理的带宽和灵活性。这样的设计使得模型可以在不牺牲生成能力的情况下,进行高效的推理。

技术框架:NF-CoT的整体架构包括一个归一化流模块和标准语言模型头。归一化流模块负责生成连续思维的位置,而语言模型头则在同一因果流中生成文本位置。这样的设计确保了潜在思维的精确概率计算,并支持原始KV缓存的概率左到右解码。

关键创新:NF-CoT的主要创新在于将归一化流与自回归语言模型结合,形成了一个新的潜在推理框架。这一设计与现有方法的本质区别在于,它允许在连续状态中进行高效推理,而不是依赖于离散的文本化过程。

关键设计:在关键设计方面,NF-CoT采用了TARFlow风格的归一化流,确保了可处理的概率模型。同时,模型的损失函数和网络结构经过精心设计,以支持直接的策略梯度优化,提升了推理的效率和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在代码生成基准上,NF-CoT显著提高了通过率,相较于显式CoT和之前的潜在推理基线,提升幅度明显,同时大幅降低了中间推理成本,展示了其在实际应用中的优势。

🎯 应用场景

NF-CoT框架在代码生成、自然语言处理等领域具有广泛的应用潜力。通过提高推理效率和准确性,该方法可以帮助开发更智能的编程助手和自动化工具,推动人工智能在实际应用中的发展。未来,NF-CoT可能会在更复杂的推理任务中展现出更大的价值。

📄 摘要(原文)

Large language models often improve reasoning by generating explicit chain-of-thought (CoT), demonstrating the importance of intermediate computation. However, textual CoT forces this computation through a discrete, serial, and communication-oriented token stream: each reasoning step must be verbalized before the model can proceed, even when the underlying update is semantic, uncertain, or only partially formed. Latent reasoning offers a higher-bandwidth alternative by performing intermediate computation in compact continuous states before committing to text. Yet existing latent-reasoning methods often sacrifice key advantages that make CoT effective in autoregressive language models, including native left-to-right generation, probabilistic sampling, compatibility with KV-cache decoding, and tractable likelihood estimation. We propose NF-CoT, a latent reasoning framework that preserves these advantages by modeling continuous thoughts with normalizing flows. NF-CoT instantiates a TARFlow-style normalizing flow inside the LLM backbone, defining a tractable probability model over compact continuous thoughts distilled from explicit CoT. Continuous-thought positions are generated by an NF head, while text positions are generated by the standard LM head within the same causal stream. This design provides exact likelihoods for latent thoughts, enables probabilistic left-to-right decoding with the original KV cache, and supports direct policy-gradient optimization in the latent reasoning space. On code-generation benchmarks, NF-CoT improves pass rates over explicit-CoT and prior latent-reasoning baselines while substantially reducing intermediate-reasoning cost.