Programming over Thinking: Efficient and Robust Multi-Constraint Planning

📄 arXiv: 2601.09097v1 📥 PDF

作者: Derrick Goh Xin Deik, Quanyu Long, Zhengyuan Liu, Nancy F. Chen, Wenya Wang

分类: cs.AI

发布日期: 2026-01-14

备注: 8 pages of main text, 2 pages of references and and limitations, 37 pages of appendices

🔗 代码/项目: GITHUB


💡 一句话要点

SCOPE:解耦推理与执行,高效解决多约束规划问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多约束规划 大语言模型 推理与执行解耦 代码生成 可复用求解器

📋 核心要点

  1. 现有LLM在多约束规划中,要么推理链过长导致误差累积,要么依赖特定代码或求解器缺乏泛化性。
  2. SCOPE框架将查询相关的推理与通用的代码执行解耦,生成可复用的求解器函数,提高效率和鲁棒性。
  3. 实验表明,SCOPE在TravelPlanner任务上显著优于现有方法,成功率提升61.6%,并降低了成本和延迟。

📝 摘要(中文)

多约束规划涉及识别、评估和优化候选方案,同时满足多个可能冲突的约束。现有的大语言模型(LLM)方法在该领域面临根本性限制。纯粹的推理范式依赖于冗长的自然语言链,容易出现不一致、误差累积和高昂的成本。而LLM与编码或求解器策略相结合的方法缺乏灵活性,它们通常从头开始生成特定问题的代码,或依赖于固定的求解器,无法捕获跨不同问题的通用逻辑。为了解决这些挑战,我们引入了可扩展的代码规划引擎(SCOPE),该框架将查询特定的推理与通用代码执行分离。通过分离推理和执行,SCOPE生成一致、确定且可在查询之间重用的求解器函数,同时仅需对输入参数进行最小的更改。SCOPE实现了最先进的性能,同时降低了成本和延迟。例如,使用GPT-4o,它在TravelPlanner上达到了93.1%的成功率,比最佳基线(CoT)提高了61.6%,同时降低了1.4倍的推理成本和约4.67倍的时间。

🔬 方法详解

问题定义:论文旨在解决多约束规划问题,即在满足多个潜在冲突的约束条件下,寻找、评估和优化候选方案。现有方法,如纯粹的LLM推理(CoT)容易产生不一致和误差累积,成本高昂。而LLM与编码或求解器结合的方法,往往依赖于特定问题的代码或固定的求解器,缺乏跨问题的泛化能力。

核心思路:论文的核心思路是将查询相关的推理过程与通用的代码执行过程解耦。具体来说,就是利用LLM进行高层次的规划和问题分解,生成可执行的代码片段,这些代码片段可以被组织成通用的求解器函数。这些求解器函数可以在不同的查询中复用,只需要根据具体查询调整输入参数即可。

技术框架:SCOPE框架包含两个主要阶段:1) 推理阶段:利用LLM对输入查询进行分析,提取约束条件和目标,并生成相应的代码片段。这些代码片段描述了如何根据约束条件评估和优化候选方案。2) 执行阶段:将推理阶段生成的代码片段组织成通用的求解器函数,并根据具体查询的输入参数执行这些函数。执行阶段会迭代地评估和优化候选方案,直到找到满足所有约束条件的最优解。

关键创新:SCOPE最重要的创新点在于将推理与执行解耦,从而实现了代码的复用和泛化。与现有方法相比,SCOPE不需要为每个查询都从头开始生成代码,而是可以利用已有的求解器函数,只需要调整输入参数即可。这种方法不仅提高了效率,还降低了成本,并提高了鲁棒性。

关键设计:SCOPE的关键设计包括:1) 代码片段的生成:利用LLM生成描述约束条件和优化策略的代码片段。2) 求解器函数的构建:将代码片段组织成通用的求解器函数,并定义输入参数和输出结果。3) 迭代优化:在执行阶段,迭代地评估和优化候选方案,直到找到满足所有约束条件的最优解。论文中没有明确提及具体的参数设置、损失函数或网络结构,这部分可能依赖于所使用的LLM和具体的规划任务。

📊 实验亮点

SCOPE在TravelPlanner任务上取得了显著的性能提升。使用GPT-4o,SCOPE达到了93.1%的成功率,相比最佳基线CoT提高了61.6%。同时,SCOPE还降低了1.4倍的推理成本和约4.67倍的时间。这些结果表明,SCOPE在多约束规划问题上具有显著的优势。

🎯 应用场景

SCOPE框架可应用于各种需要多约束规划的场景,例如旅行规划、资源分配、任务调度、供应链管理等。通过将推理与执行解耦,SCOPE能够高效、鲁棒地解决这些问题,降低开发成本,提高系统性能。未来,该框架有望扩展到更复杂的规划任务,并与其他AI技术相结合,实现更智能的决策支持。

📄 摘要(原文)

Multi-constraint planning involves identifying, evaluating, and refining candidate plans while satisfying multiple, potentially conflicting constraints. Existing large language model (LLM) approaches face fundamental limitations in this domain. Pure reasoning paradigms, which rely on long natural language chains, are prone to inconsistency, error accumulation, and prohibitive cost as constraints compound. Conversely, LLMs combined with coding- or solver-based strategies lack flexibility: they often generate problem-specific code from scratch or depend on fixed solvers, failing to capture generalizable logic across diverse problems. To address these challenges, we introduce the Scalable COde Planning Engine (SCOPE), a framework that disentangles query-specific reasoning from generic code execution. By separating reasoning from execution, SCOPE produces solver functions that are consistent, deterministic, and reusable across queries while requiring only minimal changes to input parameters. SCOPE achieves state-of-the-art performance while lowering cost and latency. For example, with GPT-4o, it reaches 93.1% success on TravelPlanner, a 61.6% gain over the best baseline (CoT) while cutting inference cost by 1.4x and time by ~4.67x. Code is available at https://github.com/DerrickGXD/SCOPE.