Answer-Centric or Reasoning-Driven? Uncovering the Latent Memory Anchor in LLMs

📄 arXiv: 2506.17630v1 📥 PDF

作者: Yang Wu, Yifan Zhang, Yiwei Wang, Yujun Cai, Yurong Wu, Yuran Wang, Ning Xu, Jian Cheng

分类: cs.CL

发布日期: 2025-06-21

备注: 14 pages, 8 figures


💡 一句话要点

揭示LLM中的潜在记忆锚点:答案中心还是推理驱动?

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理能力 答案锚定 提示工程 行为分析

📋 核心要点

  1. 现有LLM在推理能力上表现出色,但其推理过程可能依赖于记忆而非真正的逻辑推导。
  2. 论文提出五级答案可见性提示框架,通过操纵答案线索来分析LLM对答案和推理链的依赖程度。
  3. 实验结果表明,LLM对显式答案的依赖性很强,即使有完整的推理链,屏蔽答案线索也会显著降低性能。

📝 摘要(中文)

大型语言模型(LLM)展现出令人印象深刻的推理能力,但越来越多的证据表明,它们的成功很大程度上源于记忆的答案-推理模式,而非真正的推理。本文探讨了一个核心问题:LLM主要锚定于最终答案还是推理链的文本模式?我们提出了一个五级答案可见性提示框架,系统地操纵答案线索,并通过间接的行为分析来探测模型的行为。在最先进的LLM上的实验表明,模型强烈且一致地依赖于显式答案。即使有完整的推理链,当答案线索被屏蔽时,性能也会下降26.90%。这些发现表明,LLM所表现出的大部分推理可能反映了事后合理化,而不是真正的推理,这引发了对其推理深度的质疑。我们的研究通过严格的实证验证揭示了答案锚定现象,并强调需要对LLM中的推理构成要素进行更细致的理解。

🔬 方法详解

问题定义:论文旨在探究大型语言模型(LLM)在进行推理时,是更依赖于记忆中的答案,还是真正进行逻辑推理。现有研究表明LLM具有一定的推理能力,但同时也存在过度依赖记忆的现象。因此,如何区分LLM的推理是基于记忆还是真正的推理,是一个重要的研究问题。现有方法难以有效区分这两种情况,缺乏细粒度的分析手段。

核心思路:论文的核心思路是通过系统性地操纵答案的可见性,来观察LLM在推理过程中的行为变化。如果LLM主要依赖于记忆中的答案,那么当答案线索被移除时,其性能将会显著下降。反之,如果LLM能够进行真正的推理,那么即使答案线索被移除,其性能也不会受到太大影响。

技术框架:论文提出了一个五级答案可见性提示框架。该框架通过逐步减少提示中答案的信息量,来模拟不同的答案可见性程度。具体来说,这五个级别包括:(1) 完整答案可见;(2) 部分答案可见;(3) 答案类型可见;(4) 答案主题可见;(5) 答案完全不可见。通过比较LLM在不同答案可见性程度下的表现,可以推断其对答案的依赖程度。

关键创新:论文的关键创新在于提出了五级答案可见性提示框架,该框架能够系统性地操纵答案线索,从而更细致地分析LLM的推理过程。与以往的研究相比,该方法能够更有效地区分LLM的记忆和推理能力,揭示LLM的潜在记忆锚点。

关键设计:在实验中,论文使用了多个最先进的LLM,并在多个推理任务上进行了测试。对于每个任务,论文都设计了相应的提示模板,并根据五级答案可见性提示框架生成不同的提示。论文使用准确率作为评估指标,比较LLM在不同答案可见性程度下的表现。具体的参数设置和网络结构取决于所使用的LLM。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,当答案线索被完全屏蔽时,LLM的性能平均下降了26.90%。这一结果表明,LLM在很大程度上依赖于记忆中的答案,而不是进行真正的推理。此外,论文还发现,即使有完整的推理链,屏蔽答案线索仍然会导致性能显著下降,这进一步证实了LLM的答案锚定现象。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型的推理能力。通过分析模型对答案的依赖程度,可以设计更有效的训练方法,提高模型的泛化能力和鲁棒性。此外,该研究还可以帮助我们更好地理解LLM的内部机制,为开发更可靠、更智能的AI系统提供理论指导。

📄 摘要(原文)

While Large Language Models (LLMs) demonstrate impressive reasoning capabilities, growing evidence suggests much of their success stems from memorized answer-reasoning patterns rather than genuine inference. In this work, we investigate a central question: are LLMs primarily anchored to final answers or to the textual pattern of reasoning chains? We propose a five-level answer-visibility prompt framework that systematically manipulates answer cues and probes model behavior through indirect, behavioral analysis. Experiments across state-of-the-art LLMs reveal a strong and consistent reliance on explicit answers. The performance drops by 26.90\% when answer cues are masked, even with complete reasoning chains. These findings suggest that much of the reasoning exhibited by LLMs may reflect post-hoc rationalization rather than true inference, calling into question their inferential depth. Our study uncovers the answer-anchoring phenomenon with rigorous empirical validation and underscores the need for a more nuanced understanding of what constitutes reasoning in LLMs.