Self-Verifying Reflection Helps Transformers with CoT Reasoning

📄 arXiv: 2510.12157v1 📥 PDF

作者: Zhongwei Yu, Wannian Xia, Xue Yan, Bo Xu, Haifeng Zhang, Yali Du, Jun Wang

分类: cs.LG

发布日期: 2025-10-14

备注: Accepted by NeurIPS2025


💡 一句话要点

提出自验证反思框架,提升小型Transformer在CoT推理中的性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自验证反思 思维链推理 小型Transformer 强化学习 模型验证

📋 核心要点

  1. 大型语言模型在CoT推理中进行反思,但其对性能提升的贡献尚不明确,需要更深入的分析。
  2. 论文提出一个极简的推理框架,支持小型Transformer进行自验证反思,避免自然语言的干扰,降低实验成本。
  3. 实验表明,微型Transformer通过自验证在整数乘法和数独游戏中达到LLM水平的性能,验证了该方法的有效性。

📝 摘要(中文)

大型语言模型(LLMs)在思维链(CoT)推理中经常进行反思,即自我验证当前解决方案的正确性并探索替代方案。然而,鉴于最近的研究表明LLMs在CoT中检测到的错误有限,反思如何促进经验改进仍不清楚。为了分析这个问题,本文提出了一个极简的推理框架,支持小型Transformer进行基本的、无自然语言的自验证反思,从而确保分析的清晰性并降低综合实验的成本。理论上,我们证明如果验证错误得到适当的限制,自验证反思可以保证改进。实验表明,只有几百万参数的微型Transformer在训练和反思执行中都受益于自验证,在整数乘法和数独游戏中达到了显著的LLM水平的性能。与LLM结果类似,我们发现强化学习(RL)提高了微型Transformer的分布内性能,并激励了频繁的反思,但RL主要优化了浅层统计模式,而没有真正减少验证错误。总之,将生成式Transformer与判别式验证相结合,本质上有助于CoT推理,而与规模和自然语言无关。

🔬 方法详解

问题定义:现有大型语言模型在思维链推理中进行反思,但反思的有效性受到质疑,因为模型检测错误的能力有限。现有方法缺乏对反思机制的清晰分析,且实验成本高昂。论文旨在探究反思机制如何促进CoT推理,并降低实验成本。

核心思路:论文的核心思路是构建一个极简的推理框架,该框架允许小型Transformer在没有自然语言的情况下进行自验证反思。通过简化问题,可以更清晰地分析反思机制的贡献,并降低实验成本。自验证反思的核心在于模型能够验证自身推理步骤的正确性,并在发现错误时探索替代方案。

技术框架:该框架包含一个Transformer模型和一个自验证模块。Transformer模型负责生成推理链,自验证模块负责评估推理链的正确性。如果自验证模块检测到错误,Transformer模型将尝试生成替代的推理步骤。整个过程可以迭代多次,直到找到一个正确的解决方案或达到最大迭代次数。强化学习被用于优化模型的推理策略和反思频率。

关键创新:该论文的关键创新在于提出了一个极简的自验证反思框架,该框架允许在小型Transformer上进行清晰的分析。通过去除自然语言,可以更专注于研究反思机制本身。此外,论文还理论上证明了在验证错误受限的情况下,自验证反思可以保证性能提升。

关键设计:论文使用小型Transformer模型,参数量仅为几百万。自验证模块使用简单的判别器来评估推理步骤的正确性。强化学习使用策略梯度方法来优化模型的推理策略和反思频率。损失函数包括推理损失和验证损失,旨在鼓励模型生成正确的推理链并准确地验证其正确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,微型Transformer通过自验证反思,在整数乘法和数独游戏中达到了与大型语言模型相当的性能水平。强化学习进一步提高了模型的性能,并鼓励了频繁的反思。这些结果表明,自验证反思是一种有效的提升小型Transformer推理能力的方法。

🎯 应用场景

该研究成果可应用于资源受限的场景,例如嵌入式设备或移动设备,在这些场景中,大型语言模型的部署成本过高。通过使用小型Transformer和自验证反思,可以在这些设备上实现高效的推理能力。此外,该研究还可以促进对大型语言模型反思机制的更深入理解,并为未来的模型设计提供指导。

📄 摘要(原文)

Advanced large language models (LLMs) frequently reflect in reasoning chain-of-thoughts (CoTs), where they self-verify the correctness of current solutions and explore alternatives. However, given recent findings that LLMs detect limited errors in CoTs, how reflection contributes to empirical improvements remains unclear. To analyze this issue, in this paper, we present a minimalistic reasoning framework to support basic self-verifying reflection for small transformers without natural language, which ensures analytic clarity and reduces the cost of comprehensive experiments. Theoretically, we prove that self-verifying reflection guarantees improvements if verification errors are properly bounded. Experimentally, we show that tiny transformers, with only a few million parameters, benefit from self-verification in both training and reflective execution, reaching remarkable LLM-level performance in integer multiplication and Sudoku. Similar to LLM results, we find that reinforcement learning (RL) improves in-distribution performance and incentivizes frequent reflection for tiny transformers, yet RL mainly optimizes shallow statistical patterns without faithfully reducing verification errors. In conclusion, integrating generative transformers with discriminative verification inherently facilitates CoT reasoning, regardless of scaling and natural language.