SCULPT: Constraint-Guided Pruned MCTS that Carves Efficient Paths for Mathematical Reasoning

📄 arXiv: 2601.12842v1 📥 PDF

作者: Qitong Fang, Haotian Li, Xu Wang

分类: cs.AI, cs.LG

发布日期: 2026-01-19

备注: 11 pages, 3 figures. Equal contribution: Qitong Fang and Haotian Li. Corresponding authors: Qitong Fang (fangqitong@student.jlju.edu.cn), Haotian Li (lihaotian@student.jlju.edu.cn), Xu Wang (wangxu@jlju.edu.cn)


💡 一句话要点

SCULPT:约束引导的剪枝MCTS,为数学推理规划高效路径

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数学推理 蒙特卡洛树搜索 约束引导 领域知识 大型语言模型

📋 核心要点

  1. 现有LLM在数学推理中依赖随机探索,导致搜索空间巨大且效率低下,难以找到合理的推理路径。
  2. SCULPT通过引入领域感知的约束,指导MCTS的搜索过程,从而剪枝不合理的动作,提升搜索效率。
  3. 实验表明,SCULPT在多个数据集上稳定提升了数学推理的准确性,并展现了良好的执行器迁移能力。

📝 摘要(中文)

大型语言模型(LLMs)的自动代理工作流可以增强问题解决能力,但常见的搜索策略依赖于随机探索,并且经常遍历不合理的路径分支。这是因为当前的流程从通用提示或具有弱领域先验的已学习策略中采样候选步骤,从而导致在运算符、单位和格式上的近乎随机的游走。为了促进有序的探索,本文介绍了一种约束引导的蒙特卡洛树搜索(MCTS)方法SCULPT,它将领域感知的评分集成到选择、扩展、模拟和反向传播中。SCULPT使用符号检查(维度一致性、类型兼容性、幅度合理性、深度控制和多样性)和结构模式指导相结合的方式来评分和修剪动作,从而引导搜索朝着合理的推理路径发展。在匹配的LLM配置下,SCULPT在多个数据集上产生了稳定的改进;使用GPT-5.2的额外结果评估了执行器的可迁移性和前沿推理模型的性能。总而言之,领域感知的约束可以提高准确性,同时保持效率和推理稳定性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在数学推理任务中,由于搜索策略的随机性,导致效率低下和难以找到合理推理路径的问题。现有方法依赖于通用提示或弱领域先验的策略,使得搜索过程类似于随机游走,浪费了大量的计算资源,并且容易陷入错误的推理分支。

核心思路:SCULPT的核心思路是利用领域知识对搜索过程进行约束和引导。通过引入一系列的约束条件,例如维度一致性、类型兼容性、幅度合理性等,对搜索空间进行剪枝,从而减少不必要的探索,提高搜索效率和准确性。

技术框架:SCULPT是一个基于蒙特卡洛树搜索(MCTS)的框架,它在MCTS的四个关键步骤(选择、扩展、模拟和反向传播)中都融入了领域感知的评分和剪枝机制。具体来说,SCULPT使用符号检查和结构模式指导相结合的方式来评估动作的合理性,并根据评估结果对动作进行排序和筛选。

关键创新:SCULPT的关键创新在于将领域知识以约束的形式融入到MCTS的搜索过程中。与传统的MCTS方法相比,SCULPT能够更加有效地利用领域知识,从而引导搜索朝着合理的推理路径发展。这种约束引导的搜索策略可以显著提高搜索效率和准确性。

关键设计:SCULPT的关键设计包括:1) 一系列领域相关的约束条件,例如维度一致性、类型兼容性、幅度合理性等;2) 一种基于符号检查和结构模式指导的评分机制,用于评估动作的合理性;3) 一种剪枝策略,用于排除不合理的动作。这些设计共同作用,使得SCULPT能够有效地引导MCTS的搜索过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SCULPT在多个数学推理数据集上取得了显著的性能提升。实验结果表明,在匹配的LLM配置下,SCULPT能够稳定地提高推理准确性。此外,使用GPT-5.2的实验结果还表明,SCULPT具有良好的执行器可迁移性,并且能够提升前沿推理模型的性能。这些结果充分证明了SCULPT的有效性和通用性。

🎯 应用场景

SCULPT具有广泛的应用前景,可以应用于各种需要数学推理的场景,例如科学计算、工程设计、金融分析等。通过提高数学推理的准确性和效率,SCULPT可以帮助人们更好地解决复杂的问题,并促进相关领域的发展。此外,SCULPT的约束引导思想也可以推广到其他类型的推理任务中,例如逻辑推理、常识推理等。

📄 摘要(原文)

Automated agent workflows can enhance the problem-solving ability of large language models (LLMs), but common search strategies rely on stochastic exploration and often traverse implausible branches. This occurs because current pipelines sample candidate steps from generic prompts or learned policies with weak domain priors, yielding near-random walks over operators, units, and formats. To promote ordered exploration, this paper introduces SCULPT, a constraint-guided approach for Monte Carlo Tree Search (MCTS) that integrates domain-aware scoring into selection, expansion, simulation, and backpropagation. SCULPT scores and prunes actions using a combination of symbolic checks (dimensional consistency, type compatibility, magnitude sanity, depth control, and diversity) and structural pattern guidance, thereby steering the search toward plausible reasoning paths. Under matched LLM configurations, SCULPT yields stable improvements on multiple datasets; additional results with GPT-5.2 assess executor transferability and performance on frontier reasoning models. Overall, domain-aware constraints can improve accuracy while maintaining efficiency and reasoning stability.