Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning
作者: Sixing Chen, Ji-An Li, Saner Cakir, Sinan Akcali, Kayla Lee, Marcelo G. Mattar
分类: cs.AI
发布日期: 2026-05-07
💡 一句话要点
通过从LLM推理轨迹中提取搜索树,揭示其规划过程中的近视性特征
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 思维链 规划与决策 计算认知科学 因果干预 搜索树分析
📋 核心要点
- 核心问题:LLM生成的思维链中包含复杂的推理过程,但其内部是否真正执行了有效的规划,以及这些推理轨迹如何转化为最终决策,目前缺乏量化分析。
- 方法要点:通过解析四子棋游戏中的思维链,构建显式的搜索树结构,并利用计算模型拟合搜索行为,对比分析LLM与人类在规划深度与广度上的差异。
- 实验效果:研究发现LLM表现出明显的“近视”规划特征,即尽管推理轨迹包含深层节点,但实际决策主要受浅层节点驱动,这与人类依赖深度搜索的模式截然不同。
📝 摘要(中文)
大型语言模型(LLMs),特别是推理模型,能够生成包含对未来结果进行明确审议的思维链(CoT)。然而,这种审议是否构成真正的规划、其结构如何以及哪些方面驱动了性能,目前尚不清楚。本文提出了一种通过在四子棋游戏中提取和量化推理轨迹中的搜索树来表征LLM规划的新方法。通过对提取的搜索树拟合计算模型,我们刻画了规划的结构及其对决策的影响。研究发现,LLM的搜索深度比人类更浅,且性能主要由搜索广度而非深度决定。最引人注目的是,尽管LLM在轨迹中展开了深层节点,但其决策更符合一种完全忽略这些节点的“近视”模型。因果干预实验进一步表明,决策主要由浅层节点驱动。这些模式与人类规划形成鲜明对比,人类规划主要由深度搜索驱动。我们的发现揭示了LLM与人类规划的关键差异,为对齐两者提供了针对性指导,并为解释跨战略领域的LLM规划结构提供了通用框架。
🔬 方法详解
问题定义:论文旨在解决LLM在复杂任务中生成的思维链(CoT)是否代表了真正的规划过程,以及这些推理轨迹中的哪些部分真正影响了最终决策,从而揭示LLM在战略规划中的认知局限。
核心思路:通过将非结构化的文本推理轨迹转化为结构化的搜索树,利用计算建模手段量化搜索行为。通过对比模型拟合结果与人类规划行为,评估LLM在搜索广度与深度上的实际贡献。
技术框架:首先,在四子棋任务中收集LLM的推理轨迹;其次,通过解析器将文本转化为树状结构;接着,构建计算模型(如基于价值的决策模型)拟合搜索树对决策的影响;最后,通过选择性剪枝(Pruning)进行因果干预,验证不同深度节点对决策的实际权重。
关键创新:提出了将LLM推理轨迹显式化为搜索树的分析框架,并引入因果干预手段,成功将LLM的“思维过程”与“决策结果”解耦,揭示了LLM存在“深层推理但浅层决策”的近视性矛盾。
关键设计:采用了基于四子棋规则的树解析算法,并设计了多种计算模型(如深度加权模型、广度优先模型)进行拟合。在干预实验中,通过系统性地移除思维链中的特定段落,量化了不同搜索深度对模型胜率及决策一致性的影响。
🖼️ 关键图片
📊 实验亮点
实验结果显示,LLM的性能与搜索广度呈正相关,而与搜索深度相关性极低。因果干预实验证实,即便移除思维链中深层的推理步骤,模型决策的准确率几乎不受影响,证明了LLM在规划中存在严重的“近视”现象,这与人类依赖深层搜索的专家决策模式存在本质差异。
🎯 应用场景
该研究为评估和优化LLM在复杂战略决策任务(如博弈论、代码生成、科学推理)中的规划能力提供了新范式。其方法论可用于诊断模型在长程推理中的性能瓶颈,指导模型对齐(Alignment)策略,并帮助开发者设计更具深度规划能力的智能体架构。
📄 摘要(原文)
Large language models (LLMs), especially reasoning models, generate extended chain-of-thought (CoT) reasoning that often contains explicit deliberation over future outcomes. Yet whether this deliberation constitutes genuine planning, how it is structured, and what aspects of it drive performance remain poorly understood. In this work, we introduce a new method to characterize LLM planning by extracting and quantifying search trees from reasoning traces in the four-in-a-row board game. By fitting computational models on the extracted search trees, we characterize how plans are structured and how they influence move decisions. We find that LLMs' search is shallower than humans', and that performance is predicted by search breadth rather than depth. Most strikingly, although LLMs expand deep nodes in their traces, their move choices are best explained by a myopic model that ignores those nodes entirely. A causal intervention study where we selectively prune CoT paragraphs further suggests that move selection is driven predominantly by shallow rather than deep nodes. These patterns contrast with human planning, where performance is driven primarily by deep search. Together, our findings reveal a key difference between LLM and human planning: while human expertise is driven by deeper search, LLMs do not act on deep lookahead. This dissociation offers targeted guidance for aligning LLM and human planning. More broadly, our framework provides a generalizable approach for interpreting the structure of LLM planning across strategic domains.