Enhancing Code Generation via Bidirectional Comment-Level Mutual Grounding

作者: Yifeng Di, Tianyi Zhang

分类: cs.SE, cs.AI, cs.CL

发布日期: 2025-05-12

备注: Accepted to ICSE 2025

💡 一句话要点

提出基于双向评论互通的交互式代码生成方法，提升LLM代码生成质量。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 代码生成 大型语言模型 互通理论 代码注释 人机交互

📋 核心要点

LLM在代码生成中表现出色，但对于复杂任务，生成的代码仍存在功能性错误，开发者难以有效修复。
提出一种交互式方法，通过代码注释作为媒介，促进开发者和LLM之间的双向互通，对齐代码意图。
实验表明，该方法显著提升了LLM代码生成的准确性和开发者效率，例如在HumanEval上pass@1提升17.1%。

📝 摘要（中文）

大型语言模型（LLMs）在代码生成方面展现了前所未有的能力。然而，LLM生成的代码仍然存在大量功能性错误，特别是对于LLMs未曾见过的复杂编程任务。近期的研究表明，开发者常常难以检查和修复LLMs生成的错误代码，从而降低了他们的生产力以及对基于LLM的代码生成的信任。受到通信中互通理论的启发，我们提出了一种交互式方法，利用代码注释作为开发者和LLMs建立共同理解的媒介。我们的方法通过交错进行代码生成、内联注释生成以及通过可编辑注释进行上下文相关的用户反馈，来促进迭代互通，从而使生成的代码与开发者的意图对齐。我们在两个流行的基准测试上评估了我们的方法，结果表明我们的方法显著改进了多个最先进的LLMs，例如在HumanEval上，code-davinci-002的pass@1指标提升了17.1%。此外，我们进行了一项包含12名参与者的用户研究，与两个基线进行了比较：（1）与GitHub Copilot交互，以及（2）与一种称为多步程序合成的多步代码生成范式交互。当使用我们的方法时，参与者完成给定的编程任务的速度提高了16.7%，任务成功率提高了10.5%。这两个结果都表明，交互式地改进代码注释能够促进协作建立互通，从而产生更准确的代码生成和更高的开发者信心。

🔬 方法详解

问题定义：现有大型语言模型在复杂编程任务的代码生成中，容易出现功能性错误，且开发者难以有效识别和修复这些错误。这降低了开发者对LLM代码生成工具的信任和使用意愿。现有的代码生成方法缺乏开发者与LLM之间的有效沟通和理解，导致生成的代码与开发者意图存在偏差。

核心思路：借鉴通信领域的互通理论，将代码注释作为开发者和LLM之间建立共同理解的桥梁。通过迭代地生成代码、生成内联注释，并允许开发者编辑注释提供反馈，从而使LLM更好地理解开发者的意图，并生成更符合需求的正确代码。这种双向的沟通机制能够促进LLM和开发者之间的互通。

技术框架：该方法的核心是一个交互式的代码生成流程，包含以下三个主要阶段：1) 代码生成：LLM根据用户提供的任务描述生成初始代码。2) 注释生成：LLM为生成的代码自动生成内联注释，解释代码的功能和逻辑。3) 用户反馈：开发者审阅生成的代码和注释，并对注释进行编辑，提供更详细的反馈和意图说明。LLM根据用户编辑后的注释，重新生成代码，并重复上述过程，直到生成满足开发者需求的代码。

关键创新：该方法最重要的创新在于引入了双向的评论互通机制。与传统的单向代码生成方法不同，该方法允许开发者通过编辑注释来直接影响LLM的代码生成过程，从而实现更精确的代码生成。此外，该方法还利用LLM自动生成注释，降低了开发者提供反馈的成本。

关键设计：该方法的关键设计在于如何有效地利用用户编辑后的注释来指导代码生成。具体来说，可以将用户编辑后的注释与原始的任务描述拼接在一起，作为LLM重新生成代码的输入。此外，还可以使用一些技术手段来提高LLM对用户反馈的利用率，例如使用注意力机制来关注用户编辑过的注释部分。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在HumanEval数据集上，code-davinci-002的pass@1指标提升了17.1%。用户研究表明，与GitHub Copilot和多步程序合成方法相比，使用该方法的参与者完成编程任务的速度提高了16.7%，任务成功率提高了10.5%。这些结果充分证明了该方法在提高代码生成质量和开发者效率方面的有效性。

🎯 应用场景

该研究成果可应用于各种代码生成场景，例如软件开发、自动化测试、数据分析等。通过提高LLM代码生成的准确性和效率，可以显著提升开发者的生产力，降低软件开发成本。未来，该方法有望集成到各种IDE和代码编辑器中，为开发者提供更智能、更便捷的代码生成服务。

📄 摘要（原文）

Large Language Models (LLMs) have demonstrated unprecedented capability in code generation. However, LLM-generated code is still plagued with a wide range of functional errors, especially for complex programming tasks that LLMs have not seen before. Recent studies have shown that developers often struggle with inspecting and fixing incorrect code generated by LLMs, diminishing their productivity and trust in LLM-based code generation. Inspired by the mutual grounding theory in communication, we propose an interactive approach that leverages code comments as a medium for developers and LLMs to establish a shared understanding. Our approach facilitates iterative grounding by interleaving code generation, inline comment generation, and contextualized user feedback through editable comments to align generated code with developer intent. We evaluated our approach on two popular benchmarks and demonstrated that our approach significantly improved multiple state-of-the-art LLMs, e.g., 17.1% pass@1 improvement for code-davinci-002 on HumanEval. Furthermore, we conducted a user study with 12 participants in comparison to two baselines: (1) interacting with GitHub Copilot, and (2) interacting with a multi-step code generation paradigm called Multi-Turn Program Synthesis. Participants completed the given programming tasks 16.7% faster and with 10.5% improvement in task success rate when using our approach. Both results show that interactively refining code comments enables the collaborative establishment of mutual grounding, leading to more accurate code generation and higher developer confidence.

Enhancing Code Generation via Bidirectional Comment-Level Mutual Grounding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理