Latent Phase-Shift Rollback: Inference-Time Error Correction via Residual Stream Monitoring and KV-Cache Steering

作者: Manan Gupta, Dhruv Kumar

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-20

备注: Under Review

💡 一句话要点

提出潜变量相移回滚(LPSR)，通过监控残差流和KV缓存控制实现推理时错误校正。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理时错误校正 残差流监控 KV缓存控制 相移检测 steering vector MATH-500

📋 核心要点

现有大语言模型在推理过程中容易出现不可逆的错误，后续token会放大初始错误。
LPSR通过监控残差流中的相移，回滚KV缓存并注入steering vector来纠正推理错误，无需额外训练。
实验表明，LPSR在MATH-500上显著优于标准AR、自校正等基线方法，且参数效率更高。

📝 摘要（中文）

大型语言模型在生成过程中经常出现无法挽回的推理错误：一旦采取了错误的步骤，后续的tokens会加剧错误，而不是纠正它。我们引入了潜变量相移回滚(LPSR)：在每个生成步骤中，我们监控关键层lcrit的残差流，通过余弦相似度+熵的双重门检测突发方向反转（相移），并通过回滚KV缓存并注入预先计算的steering vector来响应。无需微调、梯度计算或额外的正向传递。LPSR在MATH-500上使用8B模型实现了44.0%的准确率，而标准AR为28.8%（+15.2个百分点）。重要的是，提示自校正这一最自然的推理时基线，得分仅为19.8%，低于标准AR；LPSR超过它+24.2个百分点。LPSR也优于Best-of-16（+7.8个百分点），但token成本降低了5.4倍，并且以少8.75倍的参数超越了标准的70B模型（35.2%），而token预算约为3倍。32层扫描揭示了一种新的检测-校正分离：错误检测AUC在第14层达到峰值（0.718），但任务准确率在第16层达到峰值（44.0% vs. 29.2%），表明最佳监控深度因检测和校正而异。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在推理过程中出现的错误累积问题。现有方法，如自校正，效果不佳，且计算成本高昂。模型一旦在推理过程中犯错，后续的token生成往往会加剧错误，难以自我纠正。

核心思路：论文的核心思路是监控模型在推理过程中的内部状态（残差流），检测到错误迹象（相移）时，通过回滚KV缓存并注入预先计算好的steering vector来引导模型回到正确的推理方向。这种方法无需额外的训练或前向传播，计算效率高。

技术框架：LPSR包含以下主要步骤：1) 在每个生成步骤，监控指定层lcrit的残差流；2) 使用余弦相似度和熵的双重门限检测残差流中的突发方向反转（相移）；3) 如果检测到相移，则回滚KV缓存到之前的状态；4) 注入预先计算好的steering vector，引导模型回到正确的推理方向。

关键创新：LPSR的关键创新在于：1) 利用残差流监控推理过程中的错误迹象；2) 提出了一种基于余弦相似度和熵的双重门限相移检测方法；3) 通过回滚KV缓存和注入steering vector来实现推理时错误校正，无需额外训练。此外，论文还揭示了错误检测和校正的最佳监控深度不同，即“检测-校正分离”。

关键设计：论文的关键设计包括：1) 选择合适的层lcrit进行残差流监控；2) 设计合适的余弦相似度和熵的门限值，以准确检测相移；3) 预先计算steering vector，用于引导模型回到正确的推理方向；4) 确定回滚KV缓存的步长。

🖼️ 关键图片

📊 实验亮点

LPSR在MATH-500数据集上，使用8B模型达到了44.0%的准确率，相比标准AR提升了15.2个百分点，显著优于自校正方法（+24.2个百分点）。同时，LPSR也超越了Best-of-16方法（+7.8个百分点），且token成本更低。此外，LPSR使用更少的参数超越了标准70B模型。

🎯 应用场景

LPSR可应用于需要高可靠性和准确性的语言模型推理场景，例如数学问题求解、代码生成、知识问答等。该方法能够提高模型的推理准确率，减少错误累积，并降低计算成本，具有广泛的应用前景。

📄 摘要（原文）

Large language models frequently commit unrecoverable reasoning errors mid-generation: once a wrong step is taken, subsequent tokens compound the mistake rather than correct it. We introduce $\textbf{Latent Phase-Shift Rollback}$ (LPSR): at each generation step, we monitor the residual stream at a critical layer lcrit, detect abrupt directional reversals (phase shifts) via a cosine-similarity $+$ entropy dual gate, and respond by rolling back the KV-cache and injecting a pre-computed steering vector. No fine-tuning, gradient computation, or additional forward passes are required. LPSR achieves $\mathbf{44.0\%}$ on MATH-500 with an 8B model versus $28.8\%$ for standard AR ($+15.2$ pp; McNemar $χ^2 = 66.96$, $p < 10^{-15}$). Critically, prompted self-correction, the most natural inference-time baseline, scores only $19.8\%$, below standard AR; LPSR exceeds it by $+24.2$ pp ($χ^2 = 89.4$, $p \approx 0$). LPSR also outperforms Best-of-16 ($+7.8$ pp) at $5.4\times$ lower token cost, and surpasses a standard 70B model ($35.2\%$) with $8.75\times$ fewer parameters at ${\sim}3\times$ the token budget. A 32-layer sweep reveals a novel \textbf{detection-correction dissociation}: error-detection AUC peaks at layer~14 ($0.718$) but task accuracy peaks at layer~16 ($44.0\%$ vs.\ $29.2\%$), demonstrating that optimal monitoring depth differs for detection and correction.

Latent Phase-Shift Rollback: Inference-Time Error Correction via Residual Stream Monitoring and KV-Cache Steering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理