WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning

📄 arXiv: 2604.20398v1 📥 PDF

作者: Juyong Jiang, Chenglin Cai, Chansung Park, Jiasi Shen, Sunghun Kim, Jianguo Li, Yue Wang

分类: cs.CL, cs.LG, cs.SE

发布日期: 2026-04-22


💡 一句话要点

WebGen-R1:利用强化学习激励大语言模型生成功能完备且美观的网站

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 网站生成 强化学习 大型语言模型 多模态奖励 结构化生成

📋 核心要点

  1. 现有方法难以让LLM生成功能完备且美观的多页面网站,面临token成本高、延迟大、集成脆弱等挑战。
  2. WebGen-R1提出了一种支架驱动的结构化生成范式,并设计了级联多模态奖励,以提升网站生成质量。
  3. 实验表明,WebGen-R1显著提升了7B模型生成网站的功能性和美观性,性能超越了更大的开源模型。

📝 摘要(中文)

大型语言模型(LLMs)在函数级别的代码生成方面表现出色,但生成功能完备且视觉美观的多页面网站等项目级任务仍然极具挑战性。现有工作通常局限于单页静态网站,而代理框架通常依赖于专有模型的多轮执行,导致大量的token成本、高延迟和脆弱的集成。使用强化学习(RL)端到端地训练小型LLM是一种有希望的替代方案,但它在为网站生成设计可靠且计算上可行的奖励方面面临着关键瓶颈。与可以通过单元测试验证的单文件编码任务不同,网站生成需要评估内在主观的美学、跨页面交互和功能正确性。为此,我们提出了WebGen-R1,这是一个为项目级网站生成量身定制的端到端RL框架。我们首先引入了一种支架驱动的结构化生成范式,该范式约束了大型开放式动作空间并保留了架构完整性。然后,我们设计了一种新颖的级联多模态奖励,该奖励将结构保证与基于执行的功能反馈和基于视觉的美学监督无缝耦合。大量的实验表明,我们的WebGen-R1将一个7B的基础模型从生成几乎无法运行的网站转变为生成可部署的、美学上对齐的多页面网站。值得注意的是,我们的WebGen-R1不仅始终优于大规模的开源模型(高达72B),而且在功能成功方面与最先进的DeepSeek-R1(671B)相媲美,同时在有效渲染和美学对齐方面大大超过了它。这些结果表明,WebGen-R1是将小型开放模型从函数级代码生成扩展到项目级Web应用程序生成的可行途径。

🔬 方法详解

问题定义:现有方法在利用大型语言模型生成复杂的多页面网站时,面临着功能性、美观性和效率上的挑战。具体来说,现有方法要么局限于生成简单的静态单页网站,要么依赖于成本高昂且难以集成的专有模型。此外,为网站生成任务设计可靠且计算可行的奖励函数也是一个难题,因为网站的质量评估涉及主观美学、跨页面交互和功能正确性等多个方面。

核心思路:WebGen-R1的核心思路是利用强化学习,通过精心设计的奖励机制,引导小型语言模型生成高质量的网站。该方法通过引入支架驱动的结构化生成范式,约束了动作空间,保证了网站架构的完整性。同时,设计了一种级联多模态奖励,将结构保证、功能反馈和视觉美学监督相结合,从而实现对网站生成过程的有效指导。

技术框架:WebGen-R1的整体框架是一个端到端的强化学习流程。首先,模型接收一个网站生成任务的描述作为输入。然后,模型根据当前策略生成网站代码。接下来,通过执行生成的代码,并结合视觉信息,计算多模态奖励。最后,利用奖励信号更新模型的策略,使其能够生成更符合要求的网站。该框架包含以下主要模块:支架驱动的结构化生成模块、功能反馈模块和视觉美学监督模块。

关键创新:WebGen-R1的关键创新在于其级联多模态奖励函数的设计。该奖励函数综合考虑了网站的结构完整性、功能正确性和视觉美观性,从而能够更全面地评估网站的质量。与传统的基于单元测试的奖励函数不同,WebGen-R1的奖励函数能够处理网站生成任务中涉及的主观美学和跨页面交互等复杂因素。

关键设计:WebGen-R1的关键设计包括:1) 支架驱动的结构化生成,通过预定义的网站结构模板,限制模型的生成空间,提高生成效率和质量;2) 级联多模态奖励,包括结构奖励(鼓励生成符合预定义结构的网站)、功能奖励(基于执行结果评估网站的功能正确性)和视觉奖励(基于视觉信息评估网站的美观性);3) 强化学习算法的选择,论文中使用了合适的强化学习算法来优化模型的策略,使其能够最大化累积奖励。

📊 实验亮点

WebGen-R1在实验中表现出色,显著提升了7B基础模型生成网站的质量。在功能性方面,WebGen-R1不仅超越了72B的开源模型,而且与671B的DeepSeek-R1相媲美。在美观性方面,WebGen-R1也明显优于DeepSeek-R1。这些结果表明,WebGen-R1是一种有效且高效的网站生成方法。

🎯 应用场景

WebGen-R1具有广泛的应用前景,可用于快速生成各种类型的网站,例如企业官网、个人博客、电商平台等。该技术可以降低网站开发的成本和时间,并使得非专业人士也能够轻松创建自己的网站。未来,WebGen-R1有望应用于自动化网页设计、个性化网站生成等领域,推动Web开发技术的进步。

📄 摘要(原文)

While Large Language Models (LLMs) excel at function-level code generation, project-level tasks such as generating functional and visually aesthetic multi-page websites remain highly challenging. Existing works are often limited to single-page static websites, while agentic frameworks typically rely on multi-turn execution with proprietary models, leading to substantial token costs, high latency, and brittle integration. Training a small LLM end-to-end with reinforcement learning (RL) is a promising alternative, yet it faces a critical bottleneck in designing reliable and computationally feasible rewards for website generation. Unlike single-file coding tasks that can be verified by unit tests, website generation requires evaluating inherently subjective aesthetics, cross-page interactions, and functional correctness. To this end, we propose WebGen-R1, an end-to-end RL framework tailored for project-level website generation. We first introduce a scaffold-driven structured generation paradigm that constrains the large open-ended action space and preserves architectural integrity. We then design a novel cascaded multimodal reward that seamlessly couples structural guarantees with execution-grounded functional feedback and vision-based aesthetic supervision. Extensive experiments demonstrate that our WebGen-R1 substantially transforms a 7B base model from generating nearly nonfunctional websites into producing deployable, aesthetically aligned multi-page websites. Remarkably, our WebGen-R1 not only consistently outperforms heavily scaled open-source models (up to 72B), but also rivals the state-of-the-art DeepSeek-R1 (671B) in functional success, while substantially exceeding it in valid rendering and aesthetic alignment. These results position WebGen-R1 as a viable path for scaling small open models from function-level code generation to project-level web application generation.