The Geometry of Self-Verification in a Task-Specific Reasoning Model
作者: Andrew Lee, Lihao Sun, Chris Wendler, Fernanda Viégas, Martin Wattenberg
分类: cs.AI, cs.LG
发布日期: 2025-04-19 (更新: 2025-05-11)
💡 一句话要点
研究任务型推理模型中的自验证几何结构,揭示模型如何验证自身答案。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自验证 推理模型 可解释性 注意力机制 门控线性单元
📋 核心要点
- 现有推理模型缺乏对自身答案的有效验证机制,难以保证结果的可靠性。
- 通过分析CountDown任务中DeepSeek R1模型的自验证行为,揭示模型内部的验证机制。
- 发现GLU权重和“previous-token heads”在自验证中起关键作用,并定位了可禁用自验证的注意力头。
📝 摘要(中文)
本文研究了推理模型如何验证自身的答案。通过在CountDown任务上使用DeepSeek R1的配方训练模型,并利用偏好调整导致模式崩溃的特性,得到一个始终产生高度结构化思维链序列的模型。在此基础上,我们进行了自上而下和自下而上的分析,以逆向工程模型验证其输出的方式。自上而下,我们发现门控线性单元(GLU)权重编码了与验证相关的token,例如“success”或“incorrect”。自下而上,我们发现“previous-token heads”主要负责我们设置中的自验证。我们的分析结果相互印证:受到层间通信通道的启发,我们使用已识别的GLU权重来定位最少三个可以禁用自验证的注意力头,这表明了潜在的更大验证回路的必要组成部分。最后,我们验证了类似的验证组件存在于我们的基础模型和通用推理DeepSeek-R1模型中。
🔬 方法详解
问题定义:论文旨在理解和解释大型语言模型(LLM)在执行特定任务(CountDown)时,如何验证其自身的推理结果。现有方法缺乏对模型内部自验证机制的深入理解,难以解释模型如何判断答案的正确性,以及哪些内部组件参与了验证过程。
核心思路:论文的核心思路是通过训练一个在CountDown任务上表现出高度结构化思维链的LLM,然后通过自上而下和自下而上的分析方法,逆向工程模型内部的自验证机制。通过分析模型内部的权重、激活和注意力模式,来识别参与自验证的关键组件。
技术框架:整体框架包括以下几个步骤:1) 使用DeepSeek R1的配方在CountDown任务上训练模型。2) 利用偏好调整(preference tuning)诱导模型产生高度结构化的思维链。3) 进行自上而下的分析,识别编码验证相关token的GLU权重。4) 进行自下而上的分析,识别负责自验证的注意力头(“previous-token heads”)。5) 结合两种分析结果,定位可以禁用自验证的注意力头。6) 在基础模型和通用推理模型上验证类似验证组件的存在。
关键创新:论文的关键创新在于结合了自上而下和自下而上的分析方法,深入研究了LLM的自验证机制。通过识别GLU权重和注意力头在自验证中的作用,揭示了模型内部的验证回路。此外,论文还提出了一种通过禁用特定注意力头来控制模型自验证行为的方法。
关键设计:论文的关键设计包括:1) 使用偏好调整来诱导模型产生高度结构化的思维链,从而更容易分析模型的推理过程。2) 利用GLU权重来定位与验证相关的token。3) 分析“previous-token heads”的注意力模式,识别负责自验证的注意力头。4) 通过实验验证禁用特定注意力头对模型自验证行为的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过分析GLU权重和注意力头,可以定位到模型内部负责自验证的关键组件。研究发现,仅需禁用三个特定的注意力头,即可有效阻止模型进行自验证。此外,研究还验证了类似的验证组件存在于基础模型和通用推理模型中,表明该发现具有一定的通用性。
🎯 应用场景
该研究成果可应用于提升大型语言模型的可靠性和可解释性。通过理解和控制模型的自验证机制,可以提高模型在各种任务中的准确性和鲁棒性。此外,该研究还可以为开发更安全、更可信赖的人工智能系统提供理论基础。
📄 摘要(原文)
How do reasoning models verify their own answers? We study this question by training a model using DeepSeek R1's recipe on the CountDown task. We leverage the fact that preference tuning leads to mode collapse, yielding a model that always produces highly structured chain-of-thought sequences. With this setup, we do top-down and bottom-up analyses to reverse-engineer how the model verifies its outputs. Top-down, we find Gated Linear Unit (GLU) weights encoding verification-related tokens, such as
success'' orincorrect''. Bottom-up, we find that ``previous-token heads'' are mainly responsible for self-verification in our setup. Our analyses meet in the middle: drawing inspiration from inter-layer communication channels, we use the identified GLU weights to localize as few as three attention heads that can disable self-verification, pointing to a necessary component of a potentially larger verification circuit. Finally, we verify that similar verification components exist in our base model and a general reasoning DeepSeek-R1 model.