InteractWeb-Bench: Can Multimodal Agent Escape Blind Execution in Interactive Website Generation?

📄 arXiv: 2604.27419v1 📥 PDF

作者: Qiyao Wang, Haoran Hu, Longze Chen, Hongbo Wang, Hamid Alinejad-Rokny, Yuan Lin, Min Yang

分类: cs.AI, cs.CL

发布日期: 2026-04-30

备注: 21 pages, 13 figures, 7 tables


💡 一句话要点

InteractWeb-Bench:评估多模态Agent在交互式网站生成中避免盲目执行的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 网站生成 多模态Agent 交互式基准测试 盲目执行 意图识别 用户模拟 低代码 MLLM

📋 核心要点

  1. 现有网站生成基准测试依赖理想化假设,忽略了非专业用户指令的模糊性和低质量问题。
  2. InteractWeb-Bench通过模拟真实用户行为和交互式环境,评估Agent在复杂场景下的网站生成能力。
  3. 实验表明,现有MLLM Agent在处理模糊指令时容易陷入盲目执行,意图识别和自适应交互能力不足。

📝 摘要(中文)

随着多模态大语言模型(MLLMs)和编码Agent的发展,网站开发已从手动编程转向基于Agent的项目级代码合成。现有基准测试依赖于理想化的假设,尤其是在结构良好、信息丰富的输入和静态执行设置方面。相比之下,实际开发受到一个关键瓶颈的限制:非专业用户提供的模糊、低质量指令与模型理解之间的语义错位,导致一种我们称之为盲目执行的失败模式。为了解决这一差距,我们推出了InteractWeb-Bench,这是第一个在非专业低代码用户条件下进行网站生成的多模态交互式基准测试。InteractWeb-Bench引入了四种类型的用户Agent和基于角色驱动的指令扰动,以系统地模拟多样化的用户行为,包括模糊性、冗余性和矛盾性,这些行为都基于需求工程缺陷分类。我们为Agent开发了一个交互式执行环境,其中包含一个统一的动作空间,包括澄清、实现、验证和提交,从而实现迭代的意图细化、代码合成和基于视觉反馈的验证。广泛的实验和分析表明,前沿的基于MLLM的Agent仍然陷入盲目执行,暴露了意图识别和自适应交互方面的局限性。

🔬 方法详解

问题定义:现有网站生成Agent在理想化假设下表现良好,但在实际应用中,非专业用户提供的指令通常是模糊、冗余甚至矛盾的。这种语义错位导致Agent无法准确理解用户意图,从而产生盲目执行的问题,严重影响了网站生成的质量和效率。现有基准测试缺乏对这种真实场景的模拟和评估。

核心思路:InteractWeb-Bench的核心思路是构建一个更贴近真实用户场景的交互式网站生成基准测试。通过引入多样化的用户Agent和指令扰动,模拟非专业用户的各种行为模式。同时,提供一个交互式执行环境,允许Agent通过澄清、实现、验证等步骤迭代地理解用户意图并生成网站。

技术框架:InteractWeb-Bench包含以下几个主要组成部分:1) 用户Agent:模拟不同类型的非专业用户,包括具有模糊、冗余或矛盾指令的用户。2) 指令扰动:基于需求工程缺陷分类,对用户指令进行系统性的扰动,模拟真实场景中的指令质量问题。3) 交互式执行环境:提供一个统一的动作空间,包括澄清(Clarify)、实现(Implement)、验证(Verify)和提交(Submit),允许Agent与环境进行交互,迭代地完善网站生成过程。4) 评估指标:用于评估Agent在不同用户场景下的网站生成质量和效率。

关键创新:InteractWeb-Bench的关键创新在于其对真实用户场景的模拟和交互式执行环境的设计。与现有基准测试相比,InteractWeb-Bench更关注Agent在处理非专业用户指令时的意图识别和自适应交互能力。通过引入用户Agent和指令扰动,可以更全面地评估Agent的鲁棒性和泛化能力。

关键设计:InteractWeb-Bench的关键设计包括:1) 用户Agent的设计:基于用户画像和行为模式,设计不同类型的用户Agent,例如具有模糊指令、冗余指令或矛盾指令的用户。2) 指令扰动的设计:基于需求工程缺陷分类,对用户指令进行系统性的扰动,例如引入歧义、不完整性或不一致性。3) 交互式执行环境的设计:提供一个统一的动作空间,允许Agent通过澄清、实现、验证等步骤与环境进行交互,迭代地完善网站生成过程。澄清动作允许Agent向用户提问以消除指令中的歧义;实现动作允许Agent根据当前理解生成网站代码;验证动作允许Agent通过视觉反馈验证网站的正确性;提交动作表示Agent完成网站生成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有基于MLLM的Agent在InteractWeb-Bench上的表现远低于理想水平,尤其是在处理模糊和矛盾指令时,Agent容易陷入盲目执行。例如,在处理包含歧义的指令时,Agent的成功率下降了XX%。这些结果表明,现有Agent在意图识别和自适应交互方面仍存在较大提升空间,InteractWeb-Bench可以作为评估和改进Agent性能的重要工具。

🎯 应用场景

InteractWeb-Bench的研究成果可应用于提升网站生成Agent的鲁棒性和用户友好性。通过在该基准测试上训练和评估Agent,可以提高Agent在处理非专业用户指令时的意图识别和自适应交互能力,从而降低网站开发的门槛,使更多用户能够轻松创建个性化网站。此外,该研究也为开发更智能、更人性化的AI助手提供了借鉴。

📄 摘要(原文)

With the advancement of multimodal large language models (MLLMs) and coding agents, the website development has shifted from manual programming to agent-based project-level code synthesis. Existing benchmarks rely on idealized assumptions, especially for well-structured, information-rich inputs and static execution settings. In contrast, real-world development is constrained by a critical bottleneck: the semantic misalignment between ambiguous, low-quality instructions from non-expert users and model understanding, which results in a failure mode that we term blind execution. To address this gap, we introduce InteractWeb-Bench, the first multimodal interactive benchmark for website generation under non-expert low-code user conditions. InteractWeb-Bench introduces four types of user agents and persona-driven instruction perturbations to systematically simulate diverse user behaviors, including ambiguity, redundancy, and contradiction, grounded in requirement engineering defect taxonomies. We develop an interactive execution environment for agents, featuring a unified action space comprising Clarify, Implement, Verify, and Submit, enabling iterative intent refinement, code synthesis, and visual feedback-based validation. Extensive experiments and analysis reveal that frontier MLLM-based agents remain trapped in blind execution, exposing limitations in intent recognition and adaptive interaction.