SPREG: Structured Plan Repair with Entropy-Guided Test-Time Intervention for Large Language Model Reasoning

📄 arXiv: 2604.17884v1 📥 PDF

作者: Xuan Wang, Yu Ming, Xinhao Zhong, Xinyu Yu, Wenjie Wang, Shuai Chen, Wei Lin

分类: cs.AI

发布日期: 2026-04-20


💡 一句话要点

SPREG:基于熵引导测试时干预的结构化计划修复,提升大语言模型推理能力

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理能力 熵引导 测试时干预 结构化计划 错误修复 无分类器引导

📋 核心要点

  1. 长链推理中,大语言模型易出现逻辑错误和随机漂移,影响推理的准确性。
  2. SPREG通过实时监控熵值,检测推理过程中的错误,并利用历史高置信度状态进行动态修复。
  3. 实验表明,SPREG在AIME25数据集上精度提升20%,有效抑制了复杂任务中的熵漂移。

📝 摘要(中文)

大型语言模型(LLMs)在长链推理过程中容易出现逻辑幻觉和随机漂移。虽然无分类器引导(CFG)可以提高指令遵循性,但标准的静态实现通常会导致语义稀释和语言退化。我们提出了SPREG(结构化计划引导的实时熵门控),一个轻量级的推理时框架,用于外科手术式的错误纠正。SPREG采用自适应双阈值机制来实时监控熵,将突然的“熵峰值”识别为逻辑失败的可靠指标。检测到失败时,它会通过用从历史高置信度状态合成的参考分布替换无信息的空先验来触发动态修复。通过根据结构化推理阶段(例如,动作、观察)调整引导强度,SPREG将模型引导回稳定流形,而不会影响流畅性。我们的实验表明了显著的收益,特别是在AIME25上绝对精度提高了20.0%,同时有效地抑制了复杂任务中不受控制的熵漂移。

🔬 方法详解

问题定义:大语言模型在执行复杂推理任务时,由于其自回归的生成方式,容易出现逻辑幻觉和随机漂移,导致推理结果偏离正确答案。现有的无分类器引导(CFG)方法虽然可以提高指令遵循性,但静态的引导策略容易造成语义稀释和语言流畅性下降,无法有效应对推理过程中的突发错误。

核心思路:SPREG的核心思路是实时监控推理过程中的熵值,利用熵值的突增(“熵峰值”)作为逻辑错误的可靠指标。当检测到熵峰值时,SPREG会动态地介入并修复推理过程,将模型引导回正确的推理路径。这种方法类似于外科手术,只在必要时进行干预,避免了全局性的干扰。

技术框架:SPREG主要包含以下几个模块:1) 熵监控模块:使用自适应双阈值机制实时计算和监控推理过程中的熵值。2) 错误检测模块:当熵值超过设定的阈值时,判定为出现逻辑错误。3) 动态修复模块:利用历史高置信度状态合成参考分布,替换当前推理步骤中无信息的空先验,从而引导模型回到正确的推理方向。4) 结构化引导模块:根据推理阶段(如Action, Observation)动态调整引导强度,避免过度干预。

关键创新:SPREG的关键创新在于其动态性和针对性。不同于静态的CFG方法,SPREG能够实时检测推理过程中的错误,并根据错误的性质进行针对性的修复。此外,SPREG利用历史高置信度状态合成参考分布,避免了引入外部知识或重新训练模型,降低了计算成本。

关键设计:SPREG采用自适应双阈值机制来监控熵值,包括一个高阈值和一个低阈值。当熵值超过高阈值时,立即触发修复机制;当熵值低于低阈值时,则认为模型处于稳定状态。参考分布的合成采用加权平均的方式,权重由历史状态的置信度决定。引导强度根据推理阶段动态调整,例如在Action阶段采用较低的引导强度,以保持模型的创造性;在Observation阶段采用较高的引导强度,以确保模型遵循事实。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SPREG在AIME25数据集上取得了显著的性能提升,绝对精度提高了20.0%。此外,实验还表明SPREG能够有效抑制复杂任务中不受控制的熵漂移,提高了推理过程的稳定性。与传统的CFG方法相比,SPREG在保持推理准确性的同时,避免了语义稀释和语言退化的问题。

🎯 应用场景

SPREG可应用于各种需要复杂推理的场景,例如问答系统、对话生成、代码生成等。通过提高大语言模型的推理准确性和可靠性,SPREG可以提升这些应用的用户体验和实用价值。此外,SPREG的轻量级设计使其易于部署和集成到现有的系统中,具有广泛的应用前景。

📄 摘要(原文)

Large Language Models (LLMs) are prone to logical hallucinations and stochastic drifts during long-chain reasoning. While Classifier-Free Guidance (CFG) can improve instruction adherence, standard static implementations often cause semantic dilution and linguistic degradation. We propose SPREG (Structured Plan-guided Real-time Entropy Gating), a lightweight inference-time framework for surgical error rectification. SPREG employs an adaptive dual-threshold mechanism to monitor real-time entropy, identifying sudden ``entropy spikes'' as reliable indicators of logical failure. Upon detection, it triggers a dynamic repair by replacing uninformative null-priors with reference distributions synthesized from historical high-confidence states. By modulating guidance intensity according to structured reasoning stages (e.g., Action, Observation), SPREG steers the model back to a stable manifold without compromising fluency. Our experiments demonstrate significant gains, notably a 20.0% absolute accuracy improvement on AIME25, while effectively suppressing uncontrolled entropy drift in complex tasks.