Entropy trajectory shape predicts LLM reasoning reliability: A diagnostic study of uncertainty dynamics in chain-of-thought
作者: Xinghao Zhao
分类: cs.CL, cs.LG
发布日期: 2026-03-19
💡 一句话要点
基于熵轨迹形状预测LLM推理可靠性,诊断思维链中的不确定性动态
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 思维链 推理可靠性 不确定性估计 熵轨迹 单调性 推理诊断
📋 核心要点
- 现有思维链推理方法难以低成本检测推理失败,影响LLM的可靠性。
- 提出熵轨迹单调性概念,通过分析推理过程中每一步答案分布熵的变化趋势来预测推理的正确性。
- 实验表明,单调递减的熵轨迹与更高的推理准确率相关,且优于基于总熵减少量的预测方法。
📝 摘要(中文)
思维链(CoT)推理提高了LLM的准确性,但低成本地检测推理失败仍然具有挑战性。本文研究了推理步骤中不确定性动态的形状(通过对每个步骤的答案补全进行少量采样来捕获)是否能预测正确性。我们引入了熵轨迹单调性:如果链的每步答案分布熵在每个步骤都减小,则该链是单调的。在GSM8K数据集上,使用Qwen2.5-7B-Instruct模型,单调链的准确率达到68.8%,而非单调链的准确率为46.8%(+21.9个百分点;Fisher's p=0.0005;OR=2.50)。重要的是,总熵减少量不具有预测性($ρ$=-0.06,p=0.31),揭示了一种形状与幅度分离的现象:重要的是熵是否在每个步骤都减少,而不是减少多少。违反次数0/1/2分别对应68.8%/50.8%/28.6%的准确率。Token log-probability置信度随着步数的增加,校准效果变差(ECE:0.186->0.312),单调性在73.7%的覆盖率下实现了+5.8个百分点的提升,优于大约1,500个token/问题的标量基线——是40链自洽成本的1/8。结果在Mistral-7B模型上得到复现(n=300):单调链达到72.3%,而非单调链为37.6%(+34.7个百分点;OR=4.33)。因此,不确定性轨迹的结构属性比聚合度量更具信息性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在使用思维链(Chain-of-Thought, CoT)推理时,如何以较低的计算成本检测推理失败的问题。现有的方法,如自洽性(Self-Consistency),需要采样大量的推理路径,计算成本高昂,难以在资源受限的场景下应用。因此,需要一种更高效的方法来评估CoT推理的可靠性。
核心思路:论文的核心思路是观察CoT推理过程中每一步答案分布的熵值变化。作者假设,如果LLM在推理过程中越来越确定,那么每一步的答案分布熵应该逐渐降低。如果熵值出现波动或增加,则可能表明LLM在推理过程中遇到了困难,推理结果可能不可靠。这种基于熵轨迹形状的判断方法,相比于基于总熵减少量的方法,更能反映推理过程的动态变化。
技术框架:论文提出的方法主要包含以下几个步骤:1) 使用CoT提示LLM进行推理;2) 在每个推理步骤中,通过采样获得多个答案补全;3) 计算每个步骤的答案分布熵;4) 分析熵轨迹的单调性,即判断熵值是否在每个步骤都递减;5) 根据熵轨迹的单调性来预测推理结果的正确性。
关键创新:论文最重要的技术创新点在于提出了“熵轨迹单调性”这一概念,并证明了其在预测LLM推理可靠性方面的有效性。与现有方法相比,该方法不需要大量的采样,计算成本更低,且能够更准确地反映推理过程的动态变化。此外,论文还揭示了“形状与幅度分离”的现象,即熵轨迹的形状(单调性)比熵减少的幅度更重要。
关键设计:论文的关键设计包括:1) 使用Qwen2.5-7B-Instruct和Mistral-7B等开源LLM进行实验;2) 在GSM8K数据集上评估方法的性能;3) 使用Fisher's exact test和Odds Ratio (OR)来评估单调性与推理正确性之间的相关性;4) 使用Expected Calibration Error (ECE)来评估token log-probability置信度的校准效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在GSM8K数据集上,使用Qwen2.5-7B-Instruct模型,单调链的准确率比非单调链高21.9个百分点(68.8% vs. 46.8%)。在Mistral-7B模型上,单调链的准确率比非单调链高34.7个百分点(72.3% vs. 37.6%)。该方法在73.7%的覆盖率下实现了+5.8个百分点的提升,优于基于标量的基线方法,且计算成本仅为自洽性方法的1/8。
🎯 应用场景
该研究成果可应用于各种需要LLM进行复杂推理的场景,例如自动问答、代码生成、数学问题求解等。通过快速判断推理过程的可靠性,可以避免LLM给出错误答案,提高系统的整体性能和用户体验。此外,该方法还可以用于LLM的调试和优化,帮助开发者更好地理解LLM的推理过程。
📄 摘要(原文)
Chain-of-thought (CoT) reasoning improves LLM accuracy, yet detecting failures cheaply remains elusive. We study whether the shape of uncertainty dynamics across reasoning steps--captured by sampling a few answer completions per step--predicts correctness. We introduce entropy-trajectory monotonicity: a chain is monotone if its per-step answer-distribution entropy decreases at every step. On GSM8K (n=300) with Qwen2.5-7B-Instruct, monotone chains achieve 68.8% accuracy vs. 46.8% for non-monotone chains (+21.9 pp; Fisher's p=0.0005; OR=2.50). Critically, total entropy reduction is not predictive ($ρ$=-0.06, p=0.31), revealing a shape-over-magnitude dissociation: whether entropy decreases at every step matters, not how much. Violation count 0/1/2 gives 68.8%/50.8%/28.6% accuracy. Token log-probability confidence worsens in calibration with step depth (ECE: 0.186->0.312), and monotonicity achieves +5.8 pp at 73.7% coverage, outperforming scalar baselines at approx 1,500 tokens/question--1/8 the cost of 40-chain self-consistency. Results replicate on Mistral-7B (n=300): monotone chains reach 72.3% vs. 37.6% (+34.7 pp; OR=4.33). Structural properties of uncertainty trajectories are thus more informative than aggregate measures.