MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

作者: Yan Li, Zezi Zeng, Yifan Yang, Yuqing Yang, Ning Liao, Weiwei Guo, Lili Qiu, Mingxi Cheng, Qi Dai, Zhendong Wang, Zhengyuan Yang, Xue Yang, Ji Li, Lijuan Wang, Chong Luo

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-04-16

💡 一句话要点

提出MM-WebAgent，通过分层规划和自反思，解决AIGC网页生成中风格不一致和全局连贯性差的问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态网页生成 AIGC 分层代理 自反思 全局连贯性 UI/UX设计 自动化网页设计

📋 核心要点

现有方法在自动化网页生成中直接集成AIGC工具，导致风格不一致和全局连贯性差，难以满足现代UI/UX的需求。
MM-WebAgent采用分层代理框架，通过分层规划和迭代自反思，协调AIGC元素生成，优化全局布局和局部多模态内容。
实验结果表明，MM-WebAgent在多模态元素生成和集成方面优于代码生成和基于代理的基线方法，提升了网页的连贯性和视觉一致性。

📝 摘要（中文）

人工智能生成内容(AIGC)工具的快速发展使得按需创建图像、视频和可视化内容成为可能，为网页设计提供了一种灵活且日益普及的模式，从而改善现代UI/UX。然而，由于元素是孤立生成的，直接将此类工具集成到自动网页生成中通常会导致风格不一致和全局连贯性差。我们提出了MM-WebAgent，一个用于多模态网页生成的分层代理框架，该框架通过分层规划和迭代自反思来协调基于AIGC的元素生成。MM-WebAgent联合优化全局布局、局部多模态内容及其集成，从而生成连贯且视觉上一致的网页。我们进一步引入了一个多模态网页生成的基准和一个用于系统评估的多层次评估协议。实验表明，MM-WebAgent优于代码生成和基于代理的基线，尤其是在多模态元素生成和集成方面。

🔬 方法详解

问题定义：论文旨在解决使用AIGC工具自动生成网页时，由于各个元素独立生成而导致的风格不一致和全局连贯性差的问题。现有方法缺乏对全局布局和局部内容之间关系的有效建模和优化，难以生成高质量的网页。

核心思路：论文的核心思路是采用分层代理框架，将网页生成过程分解为多个层次的任务，并通过迭代自反思来不断优化生成结果。通过分层规划，可以更好地协调全局布局和局部内容，从而提高网页的连贯性和视觉一致性。

技术框架：MM-WebAgent的整体架构包含以下几个主要模块：1) 分层规划模块：负责将网页生成任务分解为多个层次的任务，例如全局布局规划、局部内容生成等。2) 多模态内容生成模块：利用AIGC工具生成图像、视频等多种模态的内容。3) 自反思模块：通过评估生成结果的质量，并根据评估结果调整生成策略，从而不断优化生成结果。4) 集成模块：将各个模块生成的元素集成到最终的网页中。

关键创新：论文最重要的技术创新点在于提出了分层代理框架，该框架能够有效地协调全局布局和局部内容之间的关系，从而提高网页的连贯性和视觉一致性。此外，论文还引入了迭代自反思机制，能够不断优化生成结果，进一步提高网页的质量。

关键设计：论文中关于分层规划的具体策略、自反思模块的评估指标、以及多模态内容生成的具体方法等技术细节未在摘要中详细描述，具体实现细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MM-WebAgent在多模态元素生成和集成方面显著优于代码生成和基于代理的基线方法。具体性能数据和提升幅度在摘要中未给出，详细实验结果未知。

🎯 应用场景

该研究成果可应用于自动化网页设计、UI/UX设计等领域，能够显著提高网页生成的效率和质量，降低人工成本。未来，该技术有望进一步扩展到其他内容生成领域，例如广告设计、游戏开发等。

📄 摘要（原文）

The rapid progress of Artificial Intelligence Generated Content (AIGC) tools enables images, videos, and visualizations to be created on demand for webpage design, offering a flexible and increasingly adopted paradigm for modern UI/UX. However, directly integrating such tools into automated webpage generation often leads to style inconsistency and poor global coherence, as elements are generated in isolation. We propose MM-WebAgent, a hierarchical agentic framework for multimodal webpage generation that coordinates AIGC-based element generation through hierarchical planning and iterative self-reflection. MM-WebAgent jointly optimizes global layout, local multimodal content, and their integration, producing coherent and visually consistent webpages. We further introduce a benchmark for multimodal webpage generation and a multi-level evaluation protocol for systematic assessment. Experiments demonstrate that MM-WebAgent outperforms code-generation and agent-based baselines, especially on multimodal element generation and integration. Code & Data: https://aka.ms/mm-webagent.

MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理