Latent Phase-Shift Rollback: Inference-Time Error Correction via Residual Stream Monitoring and KV-Cache Steering

📄 arXiv: 2604.18567v1 📥 PDF

作者: Manan Gupta, Dhruv Kumar

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-20

备注: Under Review


💡 一句话要点

提出潜变量相移回滚(LPSR),通过监控残差流和KV缓存控制实现推理时错误校正。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理时错误校正 残差流监控 KV缓存控制 相移检测 steering vector MATH-500

📋 核心要点

  1. 现有大语言模型在推理过程中容易出现不可逆的错误,后续token会放大初始错误。
  2. LPSR通过监控残差流中的相移,回滚KV缓存并注入steering vector来纠正推理错误,无需额外训练。
  3. 实验表明,LPSR在MATH-500上显著优于标准AR、自校正等基线方法,且参数效率更高。

📝 摘要(中文)

大型语言模型在生成过程中经常出现无法挽回的推理错误:一旦采取了错误的步骤,后续的tokens会加剧错误,而不是纠正它。我们引入了潜变量相移回滚(LPSR):在每个生成步骤中,我们监控关键层lcrit的残差流,通过余弦相似度+熵的双重门检测突发方向反转(相移),并通过回滚KV缓存并注入预先计算的steering vector来响应。无需微调、梯度计算或额外的正向传递。LPSR在MATH-500上使用8B模型实现了44.0%的准确率,而标准AR为28.8%(+15.2个百分点)。重要的是,提示自校正这一最自然的推理时基线,得分仅为19.8%,低于标准AR;LPSR超过它+24.2个百分点。LPSR也优于Best-of-16(+7.8个百分点),但token成本降低了5.4倍,并且以少8.75倍的参数超越了标准的70B模型(35.2%),而token预算约为3倍。32层扫描揭示了一种新的检测-校正分离:错误检测AUC在第14层达到峰值(0.718),但任务准确率在第16层达到峰值(44.0% vs. 29.2%),表明最佳监控深度因检测和校正而异。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在推理过程中出现的错误累积问题。现有方法,如自校正,效果不佳,且计算成本高昂。模型一旦在推理过程中犯错,后续的token生成往往会加剧错误,难以自我纠正。

核心思路:论文的核心思路是监控模型在推理过程中的内部状态(残差流),检测到错误迹象(相移)时,通过回滚KV缓存并注入预先计算好的steering vector来引导模型回到正确的推理方向。这种方法无需额外的训练或前向传播,计算效率高。

技术框架:LPSR包含以下主要步骤:1) 在每个生成步骤,监控指定层lcrit的残差流;2) 使用余弦相似度和熵的双重门限检测残差流中的突发方向反转(相移);3) 如果检测到相移,则回滚KV缓存到之前的状态;4) 注入预先计算好的steering vector,引导模型回到正确的推理方向。

关键创新:LPSR的关键创新在于:1) 利用残差流监控推理过程中的错误迹象;2) 提出了一种基于余弦相似度和熵的双重门限相移检测方法;3) 通过回滚KV缓存和注入steering vector来实现推理时错误校正,无需额外训练。此外,论文还揭示了错误检测和校正的最佳监控深度不同,即“检测-校正分离”。

关键设计:论文的关键设计包括:1) 选择合适的层lcrit进行残差流监控;2) 设计合适的余弦相似度和熵的门限值,以准确检测相移;3) 预先计算steering vector,用于引导模型回到正确的推理方向;4) 确定回滚KV缓存的步长。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LPSR在MATH-500数据集上,使用8B模型达到了44.0%的准确率,相比标准AR提升了15.2个百分点,显著优于自校正方法(+24.2个百分点)。同时,LPSR也超越了Best-of-16方法(+7.8个百分点),且token成本更低。此外,LPSR使用更少的参数超越了标准70B模型。

🎯 应用场景

LPSR可应用于需要高可靠性和准确性的语言模型推理场景,例如数学问题求解、代码生成、知识问答等。该方法能够提高模型的推理准确率,减少错误累积,并降低计算成本,具有广泛的应用前景。

📄 摘要(原文)

Large language models frequently commit unrecoverable reasoning errors mid-generation: once a wrong step is taken, subsequent tokens compound the mistake rather than correct it. We introduce $\textbf{Latent Phase-Shift Rollback}$ (LPSR): at each generation step, we monitor the residual stream at a critical layer lcrit, detect abrupt directional reversals (phase shifts) via a cosine-similarity $+$ entropy dual gate, and respond by rolling back the KV-cache and injecting a pre-computed steering vector. No fine-tuning, gradient computation, or additional forward passes are required. LPSR achieves $\mathbf{44.0\%}$ on MATH-500 with an 8B model versus $28.8\%$ for standard AR ($+15.2$ pp; McNemar $χ^2 = 66.96$, $p < 10^{-15}$). Critically, prompted self-correction, the most natural inference-time baseline, scores only $19.8\%$, below standard AR; LPSR exceeds it by $+24.2$ pp ($χ^2 = 89.4$, $p \approx 0$). LPSR also outperforms Best-of-16 ($+7.8$ pp) at $5.4\times$ lower token cost, and surpasses a standard 70B model ($35.2\%$) with $8.75\times$ fewer parameters at ${\sim}3\times$ the token budget. A 32-layer sweep reveals a novel \textbf{detection-correction dissociation}: error-detection AUC peaks at layer~14 ($0.718$) but task accuracy peaks at layer~16 ($44.0\%$ vs.\ $29.2\%$), demonstrating that optimal monitoring depth differs for detection and correction.