PaT: Planning-after-Trial for Efficient Test-Time Code Generation

作者: Youngsik Yoon, Sungjae Lee, Seockbean Song, Siwei Wang, Wei Chen, Jungseul Ok

分类: cs.CL, cs.LG

发布日期: 2026-05-08

备注: Accepted to ACL 2026 main conference

💡 一句话要点

提出PaT（试后规划）框架，通过自适应规划策略显著提升大模型代码生成的推理效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 代码生成 测试时计算 自适应规划 推理优化 异构计算

📋 核心要点

现有PbT方法对所有任务强制执行规划，导致简单问题存在严重的计算冗余与资源浪费。
PaT提出一种自适应触发机制，仅在初步生成验证失败后才引入规划器进行纠错。
该方法通过异构模型协作，在保持高性能的同时大幅降低了推理成本与计算开销。

📝 摘要（中文）

除了训练阶段的优化，扩展测试时计算已成为提升大语言模型（LLM）推理能力的关键范式。然而，现有大多数方法采用僵化的“试前规划”（PbT）策略，即无论问题是否简单，均强制执行规划步骤，导致在可直接求解的问题上产生了不必要的计算开销。为此，本文提出了“试后规划”（PaT）框架，这是一种针对代码生成的自适应策略，仅在验证失败时才调用规划器。该策略天然支持异构模型配置：利用低成本模型处理初步生成尝试，仅在必要时调用高性能模型进行针对性的规划干预。实验表明，该方法在多个基准测试和模型系列中显著优化了成本-性能帕累托前沿。特别是其异构配置在保持与大型同构模型相当性能的同时，将推理成本降低了约69%。

🔬 方法详解

问题定义：论文旨在解决大模型在代码生成任务中，因过度依赖“试前规划”（PbT）而导致的推理计算资源浪费问题。现有方法在处理简单问题时仍会进行昂贵的规划，缺乏对任务难度的自适应感知。

核心思路：引入“试后规划”（PaT）范式，将规划视为一种按需调用的纠错机制。通过将生成与规划解耦，仅在初步尝试失败时才触发规划器，从而实现计算资源的动态分配。

技术框架：系统包含两个核心阶段：首先由轻量级模型进行初步代码生成与验证；若验证失败，则触发由高性能模型驱动的规划器，利用反馈信息对代码进行重构或修正，形成闭环的自适应推理流程。

关键创新：核心创新在于“自适应触发策略”，将规划从预处理步骤转变为条件触发的补救措施。这种设计允许模型根据任务难度动态调整计算投入，实现了推理效率的显著提升。

关键设计：采用异构模型配置，即“轻量级生成器+高性能规划器”的组合。该设计不仅优化了推理路径，还通过验证反馈机制（Verification-based feedback）确保了在降低成本的同时，维持了代码生成的准确性与鲁棒性。

🖼️ 关键图片

📊 实验亮点

实验结果显示，PaT显著优化了成本-性能帕累托前沿。在多个主流代码生成基准测试中，该方法在保持与大型同构模型相当的性能水平的同时，推理成本降低了约69%。这一结果证明了自适应规划策略在处理复杂代码任务时，能够以极高的性价比实现推理能力的扩展。

🎯 应用场景

该研究适用于对推理成本敏感的工业级代码生成场景，如IDE插件中的自动补全、大规模软件工程中的自动化重构以及云端代码生成API服务。通过降低推理开销，该方法能有效提升大模型在资源受限环境下的部署可行性，并为构建高效的智能编程助手提供技术支撑。

📄 摘要（原文）

Beyond training-time optimization, scaling test-time computation has emerged as a key paradigm to extend the reasoning capabilities of Large Language Models (LLMs). However, most existing methods adopt a rigid Planning-before-Trial (PbT) policy, which inefficiently allocates test-time compute by incurring planning overhead even on directly solvable problems. We propose Planning-after-Trial (PaT), an adaptive policy for code generation that invokes a planner only upon verification failure. This adaptive policy naturally enables a heterogeneous model configuration: a cost-efficient model handles generation attempts, while a powerful model is reserved for targeted planning interventions. Empirically, across multiple benchmarks and model families, our approach significantly advances the cost-performance Pareto frontier. Notably, our heterogeneous configuration achieves performance comparable to a large homogeneous model while reducing inference cost by approximately 69\%.

PaT: Planning-after-Trial for Efficient Test-Time Code Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理