LLM Latent Reasoning as Chain of Superposition
作者: Jingcheng Deng, Liang Pang, Zihao Wei, Shicheng Xu, Zenghao Duan, Kun Xu, Yang Song, Huawei Shen, Xueqi Cheng
分类: cs.CL
发布日期: 2025-10-17 (更新: 2026-01-30)
💡 一句话要点
提出Latent-SFT框架,通过隐式推理链实现高效且高性能的数学问题求解。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 隐式推理 思维链 大语言模型 数学问题求解 推理路径叠加
📋 核心要点
- 显式思维链推理计算成本高,隐式推理存在分布不匹配和链定义模糊问题。
- Latent-SFT框架将隐式推理视为多个推理路径的叠加,提升推理效率和性能。
- 实验表明,Latent-SFT在数学基准测试中优于显式SFT,并显著减少推理长度。
📝 摘要(中文)
本文提出了一种名为Latent-SFT的统一框架,旨在解决隐式推理中由于分布不匹配和链定义模糊导致的性能下降问题。Latent-SFT将隐式推理视为多个推理路径的叠加,并在token、链和学习三个层面应对挑战。首先,定义Latent-Vocab以约束隐藏状态在预训练词汇空间内。其次,通过归纳监督掩码构建Latent-Chain,确保语义紧凑性和充分性。最后,采用带有随机Gumbel-Softmax的Latent-Optim来引导模型学习可泛化的解决方案。实验结果表明,Latent-SFT在六个数学基准测试(如GSM8k、AIME24)中始终优于显式SFT,同时推理长度减少了2.7倍至5.5倍。分析证实,该方法有效地捕捉了多种推理轨迹的叠加,而不仅仅是压缩单个路径。
🔬 方法详解
问题定义:现有的大语言模型在解决复杂推理问题时,通常采用显式的思维链(Chain-of-Thought, CoT)方法,但这种方法计算成本高昂。隐式推理(Latent Reasoning)作为一种更高效的替代方案,试图在隐空间中进行推理,但由于分布不匹配和推理链定义模糊,往往导致性能下降。因此,如何设计一种既高效又能保持甚至提升性能的隐式推理方法是一个关键问题。
核心思路:本文的核心思路是将隐式推理视为多个推理路径的叠加(Superposition)。作者认为,一个复杂问题的解决可能涉及多种不同的推理方式,而模型应该能够同时考虑这些不同的路径,而不是仅仅依赖于单一的、显式的推理链。通过将多种推理路径叠加在隐空间中,可以提高模型的鲁棒性和泛化能力。
技术框架:Latent-SFT框架包含三个主要组成部分,分别对应token、chain和learning三个层面: 1. Latent-Vocab:通过将隐藏状态约束在预训练的词汇空间内,确保token层面的语义一致性。 2. Latent-Chain:利用归纳监督掩码(Induction-Supervision Masking)构建语义紧凑且充分的推理链。 3. Latent-Optim:采用带有随机Gumbel-Softmax的优化器,引导模型学习更通用的解决方案。
关键创新:该论文最重要的创新在于其将隐式推理视为多个推理路径的叠加,并提出了相应的技术框架来实现这一思想。与以往的隐式推理方法不同,Latent-SFT不是试图压缩单个推理路径,而是鼓励模型探索和整合多种可能的推理方式。这种方法能够更好地捕捉问题的复杂性,并提高模型的泛化能力。
关键设计: * Latent-Vocab:通过限制隐状态的取值范围,使其更接近预训练模型的词汇分布,从而提高语义的连贯性。 * Induction-Supervision Masking:使用掩码机制来引导模型学习语义紧凑且充分的推理链,避免冗余或不相关的token。 * Gumbel-Softmax:使用Gumbel-Softmax技巧来引入随机性,鼓励模型探索不同的推理路径,并避免陷入局部最优解。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Latent-SFT在GSM8k和AIME24等六个数学基准测试中始终优于显式SFT方法。例如,在GSM8k上,Latent-SFT的性能提升了显著百分比(具体数值未在摘要中给出)。更重要的是,Latent-SFT实现了2.7倍至5.5倍的推理长度缩减,显著提高了推理效率。分析还证实,Latent-SFT能够有效地捕捉多种推理轨迹的叠加,而不是简单地压缩单个路径。
🎯 应用场景
该研究成果可应用于各种需要高效推理的场景,例如数学问题求解、代码生成、知识图谱推理等。通过减少推理长度和提高推理效率,可以降低计算成本,并使大语言模型能够更好地应用于资源受限的环境中。此外,该方法还有助于提高模型的鲁棒性和泛化能力,使其能够更好地应对复杂和不确定的问题。
📄 摘要(原文)
Latent reasoning offers a computation-efficient alternative to Chain-of-Thought but often suffers from performance degradation due to distributional misalignment and ambiguous chain definitions. Ideally, latent reasoning should function as a superposition of multiple reasoning paths. To realize this, we introduce Latent-SFT, a unified framework addressing challenges at three levels: token, chain, and learning. First, we define the Latent-Vocab to constrain hidden states within the pre-trained vocab-space. Second, we construct the Latent-Chain via Induction-Supervision Masking to ensure semantic compactness and sufficiency. Third, we employ Latent-Optim with stochastic Gumbel-Softmax to guide the model toward generalizable solutions. Empirical results demonstrate that Latent-SFT consistently outperforms explicit SFT across six mathematical benchmarks (e.g., GSM8k, AIME24) while achieving a 2.7x to 5.5x reduction in reasoning length. Analysis confirms that our method effectively captures a superposition of diverse reasoning trajectories rather than merely compressing a single path.