PaT: Planning-after-Trial for Efficient Test-Time Code Generation

📄 arXiv: 2605.07248v1 📥 PDF

作者: Youngsik Yoon, Sungjae Lee, Seockbean Song, Siwei Wang, Wei Chen, Jungseul Ok

分类: cs.CL, cs.LG

发布日期: 2026-05-08

备注: Accepted to ACL 2026 main conference


💡 一句话要点

提出PaT(试后规划)框架,通过自适应规划策略显著提升大模型代码生成的推理效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 代码生成 测试时计算 自适应规划 推理优化 异构计算

📋 核心要点

  1. 现有PbT方法对所有任务强制执行规划,导致简单问题存在严重的计算冗余与资源浪费。
  2. PaT提出一种自适应触发机制,仅在初步生成验证失败后才引入规划器进行纠错。
  3. 该方法通过异构模型协作,在保持高性能的同时大幅降低了推理成本与计算开销。

📝 摘要(中文)

除了训练阶段的优化,扩展测试时计算已成为提升大语言模型(LLM)推理能力的关键范式。然而,现有大多数方法采用僵化的“试前规划”(PbT)策略,即无论问题是否简单,均强制执行规划步骤,导致在可直接求解的问题上产生了不必要的计算开销。为此,本文提出了“试后规划”(PaT)框架,这是一种针对代码生成的自适应策略,仅在验证失败时才调用规划器。该策略天然支持异构模型配置:利用低成本模型处理初步生成尝试,仅在必要时调用高性能模型进行针对性的规划干预。实验表明,该方法在多个基准测试和模型系列中显著优化了成本-性能帕累托前沿。特别是其异构配置在保持与大型同构模型相当性能的同时,将推理成本降低了约69%。

🔬 方法详解

问题定义:论文旨在解决大模型在代码生成任务中,因过度依赖“试前规划”(PbT)而导致的推理计算资源浪费问题。现有方法在处理简单问题时仍会进行昂贵的规划,缺乏对任务难度的自适应感知。

核心思路:引入“试后规划”(PaT)范式,将规划视为一种按需调用的纠错机制。通过将生成与规划解耦,仅在初步尝试失败时才触发规划器,从而实现计算资源的动态分配。

技术框架:系统包含两个核心阶段:首先由轻量级模型进行初步代码生成与验证;若验证失败,则触发由高性能模型驱动的规划器,利用反馈信息对代码进行重构或修正,形成闭环的自适应推理流程。

关键创新:核心创新在于“自适应触发策略”,将规划从预处理步骤转变为条件触发的补救措施。这种设计允许模型根据任务难度动态调整计算投入,实现了推理效率的显著提升。

关键设计:采用异构模型配置,即“轻量级生成器+高性能规划器”的组合。该设计不仅优化了推理路径,还通过验证反馈机制(Verification-based feedback)确保了在降低成本的同时,维持了代码生成的准确性与鲁棒性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果显示,PaT显著优化了成本-性能帕累托前沿。在多个主流代码生成基准测试中,该方法在保持与大型同构模型相当的性能水平的同时,推理成本降低了约69%。这一结果证明了自适应规划策略在处理复杂代码任务时,能够以极高的性价比实现推理能力的扩展。

🎯 应用场景

该研究适用于对推理成本敏感的工业级代码生成场景,如IDE插件中的自动补全、大规模软件工程中的自动化重构以及云端代码生成API服务。通过降低推理开销,该方法能有效提升大模型在资源受限环境下的部署可行性,并为构建高效的智能编程助手提供技术支撑。

📄 摘要(原文)

Beyond training-time optimization, scaling test-time computation has emerged as a key paradigm to extend the reasoning capabilities of Large Language Models (LLMs). However, most existing methods adopt a rigid Planning-before-Trial (PbT) policy, which inefficiently allocates test-time compute by incurring planning overhead even on directly solvable problems. We propose Planning-after-Trial (PaT), an adaptive policy for code generation that invokes a planner only upon verification failure. This adaptive policy naturally enables a heterogeneous model configuration: a cost-efficient model handles generation attempts, while a powerful model is reserved for targeted planning interventions. Empirically, across multiple benchmarks and model families, our approach significantly advances the cost-performance Pareto frontier. Notably, our heterogeneous configuration achieves performance comparable to a large homogeneous model while reducing inference cost by approximately 69\%.