Verbal Process Supervision Elicits Better Coding Agents

作者: Hao-Yuan Chen, Cheng-Pong Huang, Jui-Ming Yao

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-03-24

💡 一句话要点

CURA：通过口头过程监督提升代码生成Agent性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 代码生成 大型语言模型 AI Agent 口头过程监督 软件工程 代码理解 推理驱动

📋 核心要点

现有代码生成Agent在复杂软件工程任务中表现不佳，即使采用测试时推理也存在局限性。
CURA通过引入口头过程监督(VPS)，引导Agent进行代码理解和推理，从而提升性能。
实验表明，CURA在BigCodeBench等基准测试中优于基线模型，并结合o3-mini模型达到SOTA。

📝 摘要（中文）

大型语言模型及其作为AI Agent的应用显著提升了代码生成基准的性能，改变了现代软件工程任务。然而，即使采用测试时计算推理模型，这些系统在复杂的软件工程挑战中仍然面临困难。本文提出了CURA，一个通过口头过程监督(VPS)增强的代码理解和推理Agent系统，在BigCodeBench等具有挑战性的基准测试中，性能比基线模型提高了3.65%。此外，CURA与o3-mini模型和VPS技术结合使用时，达到了最先进的性能。这项工作代表了将推理驱动架构与基于LLM的代码生成相结合的一个进步，使语言模型能够进行Agent推理，从而解决复杂的软件工程任务。

🔬 方法详解

问题定义：现有代码生成Agent在处理复杂软件工程任务时，即使采用了测试时计算推理，仍然难以达到令人满意的性能。痛点在于缺乏有效的监督信号来引导Agent进行代码理解和推理，导致生成质量不高。

核心思路：论文的核心思路是通过引入口头过程监督(Verbal Process Supervision, VPS)，显式地指导Agent进行代码理解和推理。通过提供详细的口头解释，Agent可以更好地理解代码的意图和逻辑，从而生成更准确、更可靠的代码。这样设计的目的是为了弥补现有方法中监督信号不足的缺陷，提高Agent的推理能力。

技术框架：CURA (Code Understanding and Reasoning Agent) 系统的整体架构包含代码理解模块、推理模块和代码生成模块。首先，代码理解模块接收输入的代码和问题描述，并生成代码的语义表示。然后，推理模块利用VPS提供的口头解释，对代码的逻辑进行推理。最后，代码生成模块根据推理结果生成最终的代码。整个流程通过VPS进行监督，确保Agent的推理过程与人类的思考方式对齐。

关键创新：最重要的技术创新点是引入了口头过程监督(VPS)。与传统的监督方法不同，VPS不仅提供最终的正确答案，还提供了详细的推理过程。这种监督方式能够更有效地引导Agent学习代码的逻辑和意图，从而提高代码生成的质量。VPS与现有方法的本质区别在于，它关注的是Agent的推理过程，而不仅仅是最终的结果。

关键设计：VPS的具体实现方式是，对于每个代码生成任务，都提供一段详细的口头解释，描述解决问题的步骤和思路。这些口头解释被用作Agent的监督信号，引导Agent进行代码理解和推理。具体的参数设置和网络结构等技术细节在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

CURA在BigCodeBench等具有挑战性的基准测试中，性能比基线模型提高了3.65%。更重要的是，CURA与o3-mini模型和VPS技术结合使用时，达到了最先进的性能(SOTA)。这些实验结果表明，VPS能够有效地提升代码生成Agent的性能，使其在复杂软件工程任务中表现出色。

🎯 应用场景

该研究成果可应用于自动化软件开发、代码辅助工具、智能编程教育等领域。通过提升代码生成Agent的性能，可以提高软件开发的效率和质量，降低开发成本。未来，该技术有望应用于更复杂的软件工程任务，例如自动化代码重构、代码漏洞检测等。

📄 摘要（原文）

The emergence of large language models and their applications as AI agents have significantly advanced state-of-the-art code generation benchmarks, transforming modern software engineering tasks. However, even with test-time computed reasoning models, these systems still struggle with complex software engineering challenges. This work introduces CURA, a code understanding and reasoning agent system enhanced with verbal process supervision (VPS), achieving a 3.65\% improvement over baseline models on challenging benchmarks like BigCodeBench. Furthermore, CURA, when paired with the o3-mini model and VPS techniques, attains state-of-the-art performance. This work represents a step forward in integrating reasoning-driven architectures with LLM-based code generation, enabling agentic reasoning for language models to solve complex software engineering tasks.

Verbal Process Supervision Elicits Better Coding Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理