ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding

作者: Yuhang Li, Chenchen Zhang, Ruilin Lv, Ao Liu, Ken Deng, Yuanxing Zhang, Jiaheng Liu, Wiggin Zhou, Bo Zhou

分类: cs.LG, cs.CL

发布日期: 2025-10-13

💡 一句话要点

ReLook：利用多模态LLM进行视觉引导的强化学习，用于Agentic Web Coding

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态LLM 强化学习 视觉引导 前端代码生成 Agentic Web Coding

📋 核心要点

大型语言模型（LLM）擅长算法代码生成，但在前端开发方面表现不佳，因为前端的正确性取决于渲染的像素和交互。
ReLook框架利用多模态LLM（MLLM）作为视觉评论员和反馈来源，通过强化学习训练agent，实现代码的生成、诊断和改进的闭环。
实验表明，ReLook在视觉引导的前端代码生成任务中，显著优于现有基线方法，验证了agent感知、视觉奖励和训练-推理解耦的有效性。

📝 摘要（中文）

本文提出ReLook，一个agentic的、视觉引导的强化学习框架，它使agent能够通过调用多模态LLM（MLLM）作为工具来闭环一个鲁棒的生成-诊断-改进循环。在训练期间，agent将MLLM用作视觉评论员（使用屏幕截图对代码进行评分）和可操作的、视觉引导的反馈来源；对无效渲染采用严格的零奖励规则，以确保可渲染性并防止奖励利用。为了防止行为崩溃，引入了强制优化，这是一种严格的接受规则，只允许改进的修订，从而产生单调更好的轨迹。在推理时，解耦评论员并运行轻量级的、无评论员的自编辑循环，使延迟与基本解码相当，同时保留大部分增益。在三个广泛使用的基准测试中，ReLook在视觉引导的前端代码生成方面始终优于强大的基线，突出了agent感知、视觉奖励和训练-推理解耦的优势。

🔬 方法详解

问题定义：现有的大型语言模型在算法代码生成方面表现出色，但在前端开发中面临挑战。前端代码的正确性依赖于渲染后的视觉效果和用户交互，而LLM难以直接评估这些因素。因此，如何使agent能够生成符合视觉要求的、可交互的前端代码是一个关键问题。现有方法缺乏有效的视觉反馈机制，容易产生无法渲染或用户体验差的代码。

核心思路：ReLook的核心思路是利用多模态LLM（MLLM）作为视觉评论员，为agent提供视觉反馈和指导。通过将屏幕截图作为输入，MLLM可以评估代码的渲染效果，并提供可操作的改进建议。此外，ReLook采用强化学习框架，通过视觉奖励来引导agent学习生成高质量的前端代码。

技术框架：ReLook框架包含以下主要模块：1) 代码生成器：负责生成前端代码；2) 渲染引擎：将生成的代码渲染成网页；3) 多模态LLM评论员：接收屏幕截图和代码，评估渲染效果并提供反馈；4) 强化学习agent：根据MLLM的反馈和奖励，调整代码生成策略。训练过程中，agent通过与环境交互，不断优化代码生成能力。推理阶段，采用轻量级的自编辑循环，在保证性能的同时，尽可能保留训练阶段的增益。

关键创新：ReLook的关键创新在于将多模态LLM引入到强化学习循环中，作为视觉评论员。这种方法使得agent能够获得更直接、更有效的视觉反馈，从而更好地学习生成符合视觉要求的前端代码。此外，ReLook还提出了强制优化策略，确保agent的行为单调改进，避免行为崩溃。训练-推理解耦的设计，保证了推理阶段的效率。

关键设计：ReLook采用严格的零奖励规则，对无效渲染的代码给予零奖励，防止agent通过生成无法渲染的代码来获取虚假奖励。强制优化策略只接受改进的修订，确保agent的行为单调改进。在推理阶段，解耦评论员，采用轻量级的自编辑循环，以降低延迟。具体参数设置和网络结构等细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

ReLook在三个广泛使用的基准测试中，始终优于强大的基线方法，证明了其在视觉引导的前端代码生成方面的有效性。具体的性能数据和提升幅度未在摘要中给出，属于未知信息。但总体而言，实验结果突出了agent感知、视觉奖励和训练-推理解耦的优势。

🎯 应用场景

ReLook框架可应用于自动化前端开发、网页设计、用户界面生成等领域。它可以帮助开发者快速生成高质量的前端代码，提高开发效率，降低开发成本。未来，ReLook有望应用于更广泛的视觉引导的代码生成任务，例如游戏开发、虚拟现实等。

📄 摘要（原文）

While Large Language Models (LLMs) excel at algorithmic code generation, they struggle with front-end development, where correctness is judged on rendered pixels and interaction. We present ReLook, an agentic, vision-grounded reinforcement learning framework that empowers an agent to close a robust generate--diagnose--refine loop by invoking a multimodal LLM (MLLM) as a tool. During training, the agent uses the MLLM-in-the-loop both as a visual critic--scoring code with screenshots--and as a source of actionable, vision-grounded feedback; a strict zero-reward rule for invalid renders anchors renderability and prevents reward hacking. To prevent behavioral collapse, we introduce Forced Optimization, a strict acceptance rule that admits only improving revisions, yielding monotonically better trajectories. At inference, we decouple the critic and run a lightweight, critic-free self-edit cycle, keeping latency comparable to base decoding while retaining most of the gains. Across three widely used benchmarks, ReLook consistently outperforms strong baselines in vision-grounded front-end code generation, highlighting the benefits of agentic perception, visual rewards, and training-inference decoupling.

ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理