How Do LLMs Perform Two-Hop Reasoning in Context?

📄 arXiv: 2502.13913v2 📥 PDF

作者: Tianyu Guo, Hanlin Zhu, Ruiqi Zhang, Jiantao Jiao, Song Mei, Michael I. Jordan, Stuart Russell

分类: cs.CL, cs.AI

发布日期: 2025-02-19 (更新: 2025-05-28)


💡 一句话要点

揭示LLM上下文学习中双跳推理的机制:从随机猜测到结构化查询

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 双跳推理 大型语言模型 上下文学习 注意力机制 逆向工程

📋 核心要点

  1. 现有LLM在存在干扰信息时,难以进行有效的双跳推理,表现出随机猜测的现象。
  2. 通过训练小型Transformer并分析其内部信息流,揭示了LLM实现双跳推理的机制:结构化的顺序查询。
  3. 实验表明,少量微调能显著提升LLM的双跳推理能力,并发现三参数注意力网络可以捕捉关键动态。

📝 摘要(中文)

本文研究了大型语言模型(LLM)在上下文中执行双跳推理的能力。双跳推理是指通过两个逻辑步骤推断结论的过程,每个步骤连接相邻概念,最终结论依赖于这两个步骤的整合。研究发现,当存在干扰因素时,预训练的LLM在解决简单的双跳推理问题时会失败,表现出随机猜测的行为。然而,经过少量微调后,模型能够达到接近完美的准确率,并表现出强大的长度泛化能力。为了理解其内在机制,作者从头开始训练了一个三层Transformer,并逆向工程其内部信息流,观察到注意力logits在训练过程中呈现出清晰的演变。这表明模型从随机猜测阶段过渡到结构化的顺序查询机制,其中模型首先检索前置概念和桥梁概念,然后使用它们来推断最终答案。最后,作者证明这些动态可以被一个最小的三参数注意力网络捕获。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在上下文中进行双跳推理的能力。现有的LLM虽然在许多任务上表现出色,但在面对包含干扰信息的简单双跳推理问题时,常常表现出较差的性能,甚至退化为随机猜测。这表明LLM在复杂推理方面仍然存在不足,需要进一步理解其推理机制。

核心思路:论文的核心思路是通过训练一个小型Transformer模型,并对其内部信息流进行逆向工程,从而揭示LLM进行双跳推理的内在机制。通过观察模型在训练过程中注意力权重的变化,来理解模型如何逐步学习到有效的推理策略。

技术框架:论文使用一个三层Transformer模型,从头开始训练,解决一个合成的双跳推理任务。该任务包含前提、桥梁和结论三个部分,模型需要根据给定的前提和桥梁推断出正确的结论。通过分析Transformer每一层的注意力权重,研究者可以观察到模型如何逐步提取关键信息,并进行推理。

关键创新:论文的关键创新在于通过逆向工程的方法,揭示了LLM在双跳推理过程中所采用的结构化顺序查询机制。这种机制表明,模型首先检索前提和桥梁概念,然后利用这些概念来推断最终答案。此外,论文还发现一个简单的三参数注意力网络可以捕捉到LLM推理过程中的关键动态。

关键设计:论文使用合成数据集进行训练,并精心设计了实验来控制干扰信息的数量和类型。在模型训练过程中,研究者密切关注注意力权重的变化,并使用可视化技术来呈现这些变化。此外,论文还设计了一个三参数注意力网络,用于验证所提出的结构化顺序查询机制的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,预训练的LLM在双跳推理任务中表现不佳,准确率接近随机猜测。然而,经过少量微调后,模型能够达到接近完美的准确率,并表现出强大的长度泛化能力。此外,研究发现一个简单的三参数注意力网络可以捕捉到LLM推理过程中的关键动态。

🎯 应用场景

该研究成果有助于提升LLM的推理能力,使其在需要复杂逻辑推理的场景中表现更佳,例如问答系统、知识图谱推理、智能决策等。理解LLM的推理机制,也有助于开发更高效、更可靠的AI系统,并为未来的AI研究提供新的思路。

📄 摘要(原文)

``Socrates is human. All humans are mortal. Therefore, Socrates is mortal.'' This form of argument illustrates a typical pattern of two-hop reasoning. Formally, two-hop reasoning refers to the process of inferring a conclusion by making two logical steps, each connecting adjacent concepts, such that the final conclusion depends on the integration of both steps. It is one of the most fundamental components of human reasoning and plays a crucial role in both formal logic and everyday decision-making. Despite recent progress in large language models (LLMs), we surprisingly find that they can fail at solving simple two-hop reasoning problems when distractors are present. We observe on a synthetic dataset that pre-trained LLMs often resort to random guessing among all plausible conclusions. However, after few steps of fine-tuning, models achieve near-perfect accuracy and exhibit strong length generalization. To understand the underlying mechanisms, we train a 3-layer Transformer from scratch on a synthetic two-hop reasoning task and reverse-engineer its internal information flow. We observe a clear progression in the attention logits throughout training. This pictures a sharp phase transition from an initial stage of random guessing to the emergence of a structured sequential query mechanism, where the model first retrieves the preceding and the bridge concepts in the early layers and then uses them to infer the final answer. Finally, we show that these dynamics can be captured by a minimal three-parameter attention-only network.