Code Aesthetics with Agentic Reward Feedback

作者: Bang Xiao, Lingjie Jiang, Shaohan Huang, Tengchao Lv, Yupan Huang, Xun Wu, Lei Cui, Furu Wei

分类: cs.CL

发布日期: 2025-10-27

备注: 30 pages, 7 figures

💡 一句话要点

提出基于Agent反馈的GRPO-AR算法，提升LLM生成代码的美观性，性能超越GPT-4o。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 代码美学 大型语言模型 强化学习 多智能体系统 代码生成 指令调优 奖励反馈

📋 核心要点

现有LLM在代码生成方面表现出色，但在视觉导向的编码任务中，生成代码的美观性不足，影响用户体验。
论文提出agentic reward feedback机制，利用多智能体系统评估代码的可执行性、静态美学和交互式美学，从而指导LLM生成更美观的代码。
实验表明，结合AesCode-358K数据集和GRPO-AR算法，AesCoder-4B在代码美学方面超越GPT-4o和GPT-4.1，性能媲美超大模型。

📝 摘要（中文）

大型语言模型（LLMs）已成为开发者在代码相关任务中的宝贵助手。虽然LLMs擅长代码生成和错误修复等传统编程任务，但它们在视觉导向的编码任务中表现不佳，通常产生次优的美学效果。本文介绍了一种新的流程，以提高LLM生成的代码的美学质量。首先，我们构建了AesCode-358K，这是一个专注于代码美学的大规模指令调优数据集。其次，我们提出了agentic reward feedback，这是一个多智能体系统，用于评估可执行性、静态美学和交互式美学。在此基础上，我们开发了GRPO-AR，它将这些信号集成到GRPO算法中，以联合优化功能和代码美学。最后，我们开发了OpenDesign，一个用于评估代码美学的基准。实验结果表明，将AesCode-358K上的监督微调与使用agentic reward feedback的强化学习相结合，可以显著提高OpenDesign的性能，并增强PandasPlotBench等现有基准的结果。值得注意的是，我们的AesCoder-4B超越了GPT-4o和GPT-4.1，并实现了与具有480B-685B参数的大型开源模型相当的性能，突显了我们方法的有效性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在生成代码时，尤其是在视觉导向的编码任务中，代码美观性不足的问题。现有方法主要关注代码的功能正确性，忽略了代码的视觉呈现效果，导致生成代码的可读性和用户体验较差。

核心思路：论文的核心思路是引入agentic reward feedback机制，通过多智能体系统对LLM生成的代码进行多维度评估，包括可执行性、静态美学（如代码风格、排版）和交互式美学（如图表呈现效果），并将这些评估结果作为奖励信号，指导LLM进行强化学习，从而优化代码的美观性。

技术框架：整体框架包含三个主要部分：1) 构建大规模指令调优数据集AesCode-358K，用于监督微调LLM；2) 设计agentic reward feedback系统，包含多个智能体，分别评估代码的可执行性、静态美学和交互式美学；3) 开发GRPO-AR算法，将agentic reward feedback集成到GRPO（Generalized Proximal Policy Optimization）算法中，用于联合优化代码的功能和美学。

关键创新：最重要的技术创新点在于agentic reward feedback机制。与传统的单一奖励信号不同，该机制利用多智能体系统对代码进行多维度评估，从而提供更全面、更细粒度的奖励信号，帮助LLM更好地理解代码美学的概念，并生成更美观的代码。此外，OpenDesign基准的提出也为代码美学评估提供了标准。

关键设计：AesCode-358K数据集包含358K个代码美学相关的指令-响应对，用于监督微调LLM。agentic reward feedback系统包含三个智能体：Executability Agent评估代码的可执行性；Static Aesthetics Agent评估代码的静态美学，如代码风格、排版；Interactive Aesthetics Agent评估代码的交互式美学，如图表呈现效果。GRPO-AR算法使用GRPO作为基础强化学习算法，并将agentic reward feedback作为奖励信号，通过调整策略网络，使LLM生成既具有功能正确性又具有美观性的代码。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AesCoder-4B在OpenDesign基准上取得了显著的性能提升，超越了GPT-4o和GPT-4.1等先进模型，并达到了与参数量高达480B-685B的大型开源模型相当的水平。此外，在PandasPlotBench等现有基准上，该方法也取得了显著的性能提升，验证了其在代码美学方面的有效性。

🎯 应用场景

该研究成果可广泛应用于代码生成、代码自动补全、代码风格迁移等领域。通过提升LLM生成代码的美观性，可以提高开发效率，改善用户体验，并促进代码的可读性和可维护性。未来，该技术还可应用于教育领域，帮助初学者编写更规范、更美观的代码。

📄 摘要（原文）

Large Language Models (LLMs) have become valuable assistants for developers in code-related tasks. While LLMs excel at traditional programming tasks such as code generation and bug fixing, they struggle with visually-oriented coding tasks, often producing suboptimal aesthetics. In this paper, we introduce a new pipeline to enhance the aesthetic quality of LLM-generated code. We first construct AesCode-358K, a large-scale instruction-tuning dataset focused on code aesthetics. Next, we propose agentic reward feedback, a multi-agent system that evaluates executability, static aesthetics, and interactive aesthetics. Building on this, we develop GRPO-AR, which integrates these signals into the GRPO algorithm for joint optimization of functionality and code aesthetics. Finally, we develop OpenDesign, a benchmark for assessing code aesthetics. Experimental results show that combining supervised fine-tuning on AesCode-358K with reinforcement learning using agentic reward feedback significantly improves performance on OpenDesign and also enhances results on existing benchmarks such as PandasPlotBench. Notably, our AesCoder-4B surpasses GPT-4o and GPT-4.1, and achieves performance comparable to large open-source models with 480B-685B parameters, underscoring the effectiveness of our approach.

Code Aesthetics with Agentic Reward Feedback

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理