A-ProS: Towards Reliable Autonomous Programming Through Multi-Model Feedback

作者: Anika Tabassum, Md Sifat Hossain, Md. Fahim Arefin, Tariqul Islam, Tarannum Shaila Zaman

分类: cs.SE, cs.AI

发布日期: 2026-05-18

备注: Accepted for Publication in ACM Transactions on Software Engineering and Methodology (TOSEM)

💡 一句话要点

A-ProS：通过多模型反馈实现可靠的自主编程

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自主编程 多模型反馈 代码生成 代码调试 大型语言模型 竞争性编程 迭代改进

📋 核心要点

现有自主编程方法在利用执行反馈进行迭代改进方面存在不足，尤其是在需要严格约束和完全功能正确性的竞争性编程场景。
A-ProS通过混合多模型反馈框架，将解决方案生成与专门的调试分离，利用多个LLM进行代码生成和调试，实现更可靠的自主编程。
实验结果表明，A-ProS显著提高了解决竞争性编程问题的成功率，GPT-5工作流程的成功率提升至85-90，且有状态改进优于无状态方法。

📝 摘要（中文）

大型语言模型(LLMs)在自动代码生成方面展现出强大的潜力，但它们利用执行反馈迭代改进解决方案的能力仍未得到充分探索。竞争性编程为这项研究提供了一个理想的试验平台，因为它需要端到端的算法推理、在严格计算约束下的精确实现以及通过严格评估实现的完全功能正确性。本文提出了A-ProS，一个自主AI代理，它通过混合多模型反馈框架解决竞争性编程问题，该框架将解决方案生成与专门的调试分离开来。A-ProS将基于ChatGPT的生成器(GPT-4和GPT-5)与三个调试评论器(Codestral-2508、Llama-3.3-70B和DeepSeek-R1)结合在一个2 x 3因子设计下。我们在来自ICPC世界总决赛(2011-2024)和Codeforces(评级1200-1800)的367个问题上评估了六个工作流程。结果表明，GPT-5工作流程在经过三轮改进后，从最初的39个已接受解决方案提高到85-90个，而GPT-4从15个提高到31-38个。对47个问题的受控消融研究表明，有状态的改进比无状态的方法提高了8.5-10.6个百分点，并将重复失败减少了高达3.5倍。与基线代理循环相比，A-ProS实现了超过2倍的增益，突出了持久上下文和多模型反馈对于可靠的自主程序合成的重要性。

🔬 方法详解

问题定义：论文旨在解决自主编程中，大型语言模型在利用执行反馈进行迭代改进方面的不足。现有方法难以在竞争性编程等需要严格约束和完全功能正确性的场景下，生成可靠的代码。痛点在于缺乏有效的调试机制和对上下文信息的持久利用，导致重复失败和性能瓶颈。

核心思路：论文的核心思路是构建一个混合多模型反馈框架，将代码生成和调试过程分离，并利用多个大型语言模型分别负责不同的任务。通过迭代地生成代码、执行测试、分析错误并进行改进，最终得到满足要求的解决方案。这种分离和迭代的策略旨在提高代码的可靠性和正确性。

技术框架：A-ProS的整体架构包含两个主要模块：代码生成器和调试评论器。代码生成器基于ChatGPT（GPT-4和GPT-5），负责生成初始代码解决方案。调试评论器则使用Codestral-2508、Llama-3.3-70B和DeepSeek-R1等模型，分析代码执行结果，识别错误并提供改进建议。整个流程采用迭代的方式，代码生成器根据调试评论器的反馈不断改进代码，直到通过所有测试用例或达到最大迭代次数。实验采用2 x 3因子设计，评估不同生成器和调试器的组合效果。

关键创新：A-ProS的关键创新在于其混合多模型反馈框架，该框架将代码生成和调试过程分离，并利用多个专门的模型来执行不同的任务。这种分离的设计允许每个模型专注于其擅长的领域，从而提高整体性能。此外，A-ProS采用有状态的改进策略，保留之前的上下文信息，避免重复失败，并加速迭代过程。

关键设计：A-ProS的关键设计包括：1) 使用ChatGPT作为代码生成器，利用其强大的代码生成能力；2) 使用多个不同的LLM作为调试评论器，以获得更全面的反馈；3) 采用迭代的改进策略，通过执行反馈不断优化代码；4) 实现有状态的改进，保留之前的上下文信息，避免重复失败。论文还对比了有状态和无状态改进策略的性能差异，并分析了不同模型组合的效果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，A-ProS显著提高了解决竞争性编程问题的成功率。GPT-5工作流程在经过三轮改进后，从最初的39个已接受解决方案提高到85-90个，而GPT-4从15个提高到31-38个。与基线代理循环相比，A-ProS实现了超过2倍的增益。此外，受控消融实验表明，有状态的改进比无状态的方法提高了8.5-10.6个百分点，并将重复失败减少了高达3.5倍。

🎯 应用场景

A-ProS的研究成果可应用于自动化软件开发、代码修复、教育辅助等领域。通过自主生成和调试代码，可以提高软件开发的效率和质量，降低开发成本。此外，该方法还可以用于辅助编程教学，帮助学生更好地理解和掌握编程技能。未来，A-ProS有望扩展到更复杂的编程任务和领域。

📄 摘要（原文）

Large Language Models (LLMs) demonstrate strong potential for automated code generation, yet their ability to iteratively refine solutions using execution feedback remains underexplored. Competitive programming offers an ideal testbed for this investigation, as it demands end-to-end algorithmic reasoning, precise implementation under strict computational constraints, and complete functional correctness with rigorous evaluation. In this paper, we present A-ProS, an autonomous AI agent that solves competitive programming problems through a hybrid multi-model feedback framework separating solution generation from specialized debugging. A-ProS combines ChatGPT-based generators (GPT-4 and GPT-5) with three debugging critics: Codestral-2508, Llama-3.3-70B, and DeepSeek-R1, under a 2 x 3 factorial design. We evaluate six workflows on 367 problems from ICPC World Finals (2011-2024) and Codeforces (rated 1200-1800). The results show that GPT-5 workflows improve from 39 initial accepted solutions to 85-90 after three refinement rounds, while GPT-4 improves from 15 to 31-38. A controlled ablation on 47 problems shows that stateful refinement outperforms stateless approaches by 8.5-10.6 percentage points and reduces repeated failures by up to 3.5x. Compared to baseline agent loops, A-ProS achieves over 2x greater gains, highlighting the importance of persistent context and multi-model feedback for reliable autonomous program synthesis.

A-ProS: Towards Reliable Autonomous Programming Through Multi-Model Feedback

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理