Novelty-based Tree-of-Thought Search for LLM Reasoning and Planning

📄 arXiv: 2605.06040v1 📥 PDF

作者: Leon Hamm, Zlatan Ajanovic

分类: cs.AI, cs.CL

发布日期: 2026-05-07


💡 一句话要点

提出基于新颖性度量的思维树搜索方法,以优化大语言模型的推理与规划效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 思维树 自动规划 搜索算法 推理优化 剪枝策略 提示工程

📋 核心要点

  1. 现有LLM推理方法在复杂任务中表现脆弱,且因盲目搜索导致推理过程的时间与Token成本过高。
  2. 引入基于新颖性的搜索策略,通过评估思维节点相对于历史路径的独特性,实现对搜索树的智能剪枝。
  3. 实验表明该方法在保持推理质量的同时,通过优化搜索空间显著降低了整体Token消耗,提升了规划效率。

📝 摘要(中文)

尽管思维链(CoT)、思维树(ToT)及强化学习等技术提升了大语言模型(LLM)在推理与规划任务中的表现,但这些方法仍存在脆弱性,在许多领域尚未达到人类水平,且往往伴随着高昂的时间与Token成本。受规划领域宽度优先搜索成功的启发,本文探讨了如何将“新颖性”概念引入语言领域,并以此改进思维树推理。思维树通过重复提示LLM生成连续的思想路径。本文提出了一种可度量的新颖性概念,用于描述搜索树中新节点相对于既往节点的独特性。该指标通过提示LLM并利用其预训练中蕴含的通用知识进行估算,进而用于剪枝以缩小搜索空间。尽管该方法在每个状态增加了提示开销,但通过剪枝和减小整体树规模,有效降低了总Token成本。研究在多个语言规划与通用推理基准上验证了该方法的有效性。

🔬 方法详解

问题定义:论文旨在解决大语言模型在复杂推理与规划任务中搜索空间过大、计算资源消耗高且搜索路径易陷入冗余的问题,现有ToT方法缺乏有效的剪枝机制来剔除低价值的思维分支。

核心思路:借鉴经典规划中的宽度优先搜索思想,将“新颖性”作为衡量思维节点价值的核心指标。通过量化新思维与已探索思维的差异,优先保留具有高探索价值的路径,从而在保证推理深度的前提下实现高效剪枝。

技术框架:该方法在思维树搜索过程中嵌入了一个新颖性评估模块。当LLM生成候选思维节点时,系统会调用评估器对比当前节点与搜索树中已存在节点,计算其新颖性得分。根据得分动态决定是否保留该分支,从而控制搜索树的生长方向。

关键创新:首次将规划领域的新颖性度量引入LLM推理,利用LLM自身的语义理解能力作为评估器,无需额外训练判别模型,实现了对思维路径独特性与价值的自动化评估。

关键设计:核心在于新颖性度量算法,通过提示词工程引导LLM对思维节点进行语义相似度分析,并结合预训练知识库进行打分。该设计在增加单步提示开销与减少整体搜索规模之间取得了平衡,实现了全局Token成本的优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验在多个语言规划与通用推理基准上进行了对比测试。结果显示,该方法通过引入新颖性剪枝,显著减少了搜索树的节点总数,在维持甚至提升推理准确率的同时,有效降低了整体Token消耗。相比于传统的穷举式思维树搜索,该方法在处理复杂逻辑任务时表现出更强的鲁棒性与资源利用效率。

🎯 应用场景

该方法适用于需要多步逻辑推理、复杂任务规划及长程决策的场景,如自动化代码生成、数学问题求解、复杂策略规划及科学实验设计。其核心价值在于通过高效的搜索策略,使LLM在有限的计算预算下处理更深层次的逻辑任务,对提升AI Agent的自主规划能力具有重要意义。

📄 摘要(原文)

Although advances such as chain-of-thought, tree-of-thought or reinforcement learning have improved the performance of LLMs in reasoning and planning tasks, they are still brittle and have not achieved human-level performance in many domains, and often suffer from high time and token costs. Inspired by the success of width-based search in planning, we explore how the concept of novelty can be transferred to language domains and how it can improve tree-of-thought reasoning. A tree of thoughts relies on building possible "paths" of consecutive ideas or thoughts. These are generated by repeatedly prompting an LLM. In our paper, a measurable concept of novelty is proposed that describes the uniqueness of a new node (thought) in comparison to nodes previously seen in the search tree. Novelty is estimated by prompting an LLM and making use of embedded general knowledge from pre-training. This metric can then be used to prune branches and reduce the scope of the search. Although this method introduces more prompts per state, the overall token cost can be reduced by pruning and reducing the overall tree size. This procedure is tested and compared using several benchmarks in language-based planning and general reasoning.