Code Aesthetics with Agentic Reward Feedback
作者: Bang Xiao, Lingjie Jiang, Shaohan Huang, Tengchao Lv, Yupan Huang, Xun Wu, Lei Cui, Furu Wei
分类: cs.CL
发布日期: 2025-10-27
备注: 30 pages, 7 figures
💡 一句话要点
提出基于Agent反馈的GRPO-AR算法,提升LLM生成代码的美观性,性能超越GPT-4o。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 代码美学 大型语言模型 强化学习 多智能体系统 代码生成 指令调优 奖励反馈
📋 核心要点
- 现有LLM在代码生成方面表现出色,但在视觉导向的编码任务中,生成代码的美观性不足,影响用户体验。
- 论文提出agentic reward feedback机制,利用多智能体系统评估代码的可执行性、静态美学和交互式美学,从而指导LLM生成更美观的代码。
- 实验表明,结合AesCode-358K数据集和GRPO-AR算法,AesCoder-4B在代码美学方面超越GPT-4o和GPT-4.1,性能媲美超大模型。
📝 摘要(中文)
大型语言模型(LLMs)已成为开发者在代码相关任务中的宝贵助手。虽然LLMs擅长代码生成和错误修复等传统编程任务,但它们在视觉导向的编码任务中表现不佳,通常产生次优的美学效果。本文介绍了一种新的流程,以提高LLM生成的代码的美学质量。首先,我们构建了AesCode-358K,这是一个专注于代码美学的大规模指令调优数据集。其次,我们提出了agentic reward feedback,这是一个多智能体系统,用于评估可执行性、静态美学和交互式美学。在此基础上,我们开发了GRPO-AR,它将这些信号集成到GRPO算法中,以联合优化功能和代码美学。最后,我们开发了OpenDesign,一个用于评估代码美学的基准。实验结果表明,将AesCode-358K上的监督微调与使用agentic reward feedback的强化学习相结合,可以显著提高OpenDesign的性能,并增强PandasPlotBench等现有基准的结果。值得注意的是,我们的AesCoder-4B超越了GPT-4o和GPT-4.1,并实现了与具有480B-685B参数的大型开源模型相当的性能,突显了我们方法的有效性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在生成代码时,尤其是在视觉导向的编码任务中,代码美观性不足的问题。现有方法主要关注代码的功能正确性,忽略了代码的视觉呈现效果,导致生成代码的可读性和用户体验较差。
核心思路:论文的核心思路是引入agentic reward feedback机制,通过多智能体系统对LLM生成的代码进行多维度评估,包括可执行性、静态美学(如代码风格、排版)和交互式美学(如图表呈现效果),并将这些评估结果作为奖励信号,指导LLM进行强化学习,从而优化代码的美观性。
技术框架:整体框架包含三个主要部分:1) 构建大规模指令调优数据集AesCode-358K,用于监督微调LLM;2) 设计agentic reward feedback系统,包含多个智能体,分别评估代码的可执行性、静态美学和交互式美学;3) 开发GRPO-AR算法,将agentic reward feedback集成到GRPO(Generalized Proximal Policy Optimization)算法中,用于联合优化代码的功能和美学。
关键创新:最重要的技术创新点在于agentic reward feedback机制。与传统的单一奖励信号不同,该机制利用多智能体系统对代码进行多维度评估,从而提供更全面、更细粒度的奖励信号,帮助LLM更好地理解代码美学的概念,并生成更美观的代码。此外,OpenDesign基准的提出也为代码美学评估提供了标准。
关键设计:AesCode-358K数据集包含358K个代码美学相关的指令-响应对,用于监督微调LLM。agentic reward feedback系统包含三个智能体:Executability Agent评估代码的可执行性;Static Aesthetics Agent评估代码的静态美学,如代码风格、排版;Interactive Aesthetics Agent评估代码的交互式美学,如图表呈现效果。GRPO-AR算法使用GRPO作为基础强化学习算法,并将agentic reward feedback作为奖励信号,通过调整策略网络,使LLM生成既具有功能正确性又具有美观性的代码。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AesCoder-4B在OpenDesign基准上取得了显著的性能提升,超越了GPT-4o和GPT-4.1等先进模型,并达到了与参数量高达480B-685B的大型开源模型相当的水平。此外,在PandasPlotBench等现有基准上,该方法也取得了显著的性能提升,验证了其在代码美学方面的有效性。
🎯 应用场景
该研究成果可广泛应用于代码生成、代码自动补全、代码风格迁移等领域。通过提升LLM生成代码的美观性,可以提高开发效率,改善用户体验,并促进代码的可读性和可维护性。未来,该技术还可应用于教育领域,帮助初学者编写更规范、更美观的代码。
📄 摘要(原文)
Large Language Models (LLMs) have become valuable assistants for developers in code-related tasks. While LLMs excel at traditional programming tasks such as code generation and bug fixing, they struggle with visually-oriented coding tasks, often producing suboptimal aesthetics. In this paper, we introduce a new pipeline to enhance the aesthetic quality of LLM-generated code. We first construct AesCode-358K, a large-scale instruction-tuning dataset focused on code aesthetics. Next, we propose agentic reward feedback, a multi-agent system that evaluates executability, static aesthetics, and interactive aesthetics. Building on this, we develop GRPO-AR, which integrates these signals into the GRPO algorithm for joint optimization of functionality and code aesthetics. Finally, we develop OpenDesign, a benchmark for assessing code aesthetics. Experimental results show that combining supervised fine-tuning on AesCode-358K with reinforcement learning using agentic reward feedback significantly improves performance on OpenDesign and also enhances results on existing benchmarks such as PandasPlotBench. Notably, our AesCoder-4B surpasses GPT-4o and GPT-4.1, and achieves performance comparable to large open-source models with 480B-685B parameters, underscoring the effectiveness of our approach.