WebSynthesis: World-Model-Guided MCTS for Efficient WebUI-Trajectory Synthesis

📄 arXiv: 2507.04370v1 📥 PDF

作者: Yifei Gao, Junhong Ye, Jiaqi Wang, Jitao Sang

分类: cs.AI

发布日期: 2025-07-06


💡 一句话要点

WebSynthesis:利用世界模型引导的MCTS高效合成WebUI交互轨迹

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Web代理 世界模型 轨迹合成 蒙特卡洛树搜索 强化学习

📋 核心要点

  1. 现有Web代理方法在真实或沙盒环境中交互,面临环境状态不可控和API成本高昂的挑战,阻碍了可扩展的自改进。
  2. WebSynthesis通过学习世界模型来模拟虚拟Web环境,使代理能够进行高效且可逆的基于树的规划,从而合成高质量轨迹。
  3. 实验表明,在小规模合成数据集上使用WebSynthesis训练的代理,性能可与甚至超过在大型真实世界数据上训练的模型。

📝 摘要(中文)

大型语言模型(LLMs)的最新进展显著提升了Web代理的能力。然而,有效导航复杂且动态的Web环境仍然需要更高级别的轨迹规划和执行。先前的研究通过从真实环境交互中收集大量的GUI轨迹来改进代理。尽管这些方法有效,但它们面临两个关键挑战:(1)不可控的环境状态,真实或沙盒Web环境通常产生不稳定和非确定性的反馈,使得代理行为的重现和调试变得复杂;(2)高昂的API成本,因为生成单个交互轨迹可能涉及数百个查询,导致大量的API使用和计算费用。为了解决这些限制并实现代理的可扩展自改进,我们提出了WebSynthesis,一个用于轨迹合成和训练的新框架。WebSynthesis利用学习到的世界模型来模拟虚拟Web环境,允许策略代理执行高效且可逆的基于树的规划。这种方法支持大规模生成多样化和高质量的轨迹,这些轨迹随后被用于改进代理的策略。实验结果表明,使用WebSynthesis在小规模合成数据集上训练的代理,其性能可与甚至超过在大型真实世界数据上训练的模型。

🔬 方法详解

问题定义:现有Web代理在真实或沙盒环境中进行交互式学习,但真实Web环境具有不确定性和不稳定性,导致难以复现和调试代理行为。同时,与真实Web环境交互需要频繁调用API,成本高昂,限制了大规模自学习。

核心思路:WebSynthesis的核心思路是构建一个可学习的世界模型,该模型能够模拟Web环境的行为。代理在虚拟环境中进行探索和学习,生成高质量的交互轨迹,然后利用这些轨迹来训练和改进代理的策略。通过在虚拟环境中进行训练,可以避免真实Web环境的不确定性和高昂的API成本。

技术框架:WebSynthesis包含以下主要模块:1) 世界模型:用于模拟Web环境的行为,接收代理的动作并预测下一个状态。2) 策略代理:负责生成与Web环境交互的动作。3) 基于MCTS的轨迹规划器:利用世界模型进行前瞻搜索,生成高质量的交互轨迹。4) 训练模块:使用生成的轨迹来训练和改进策略代理。

关键创新:WebSynthesis的关键创新在于利用学习到的世界模型来模拟Web环境,从而实现高效且可控的轨迹合成。与直接在真实Web环境中进行交互学习的方法相比,WebSynthesis可以避免环境的不确定性和高昂的API成本,从而实现更高效和可扩展的自学习。

关键设计:世界模型可以使用各种神经网络结构来实现,例如Transformer或RNN。MCTS算法用于在虚拟环境中进行前瞻搜索,选择最优的动作序列。训练模块可以使用各种强化学习算法,例如PPO或DQN。论文中可能还涉及一些超参数的调整,例如MCTS的搜索深度、世界模型的训练数据量等,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用WebSynthesis在小规模合成数据集上训练的代理,其性能可与甚至超过在大型真实世界数据上训练的模型。这表明WebSynthesis能够有效地利用合成数据来训练Web代理,从而降低对真实数据的依赖,并提高训练效率。具体的性能提升幅度未知,需要参考论文中的详细实验数据。

🎯 应用场景

WebSynthesis可应用于开发更智能、更高效的Web代理,例如自动化网页测试、智能信息检索、自动化数据抓取等。该技术能够降低Web代理的开发成本,提高其稳定性和可靠性,并促进Web代理在更广泛领域的应用。未来,该技术可能被用于构建更复杂的Web应用,例如智能客服、自动化办公等。

📄 摘要(原文)

Recent advancements in large language models (LLMs) have significantly improved the capabilities of web agents. However, effectively navigating complex and dynamic web environments still requires more advanced trajectory-level planning and execution. Prior studies have addressed self-improving agents by collecting extensive GUI trajectories from real-environment interactions. Despite their effectiveness, these approaches encounter two critical challenges: (1) Uncontrollable environment states, where real or sandboxed web environments often yield unstable and non-deterministic feedback, complicating the reproduction and debugging of agent behaviors; and (2) High API costs, as generating even a single interaction trajectory can involve hundreds of queries, leading to considerable API usage and computational expenses. To address these limitations and enable scalable self-improvement for agents, we propose WebSynthesis, a novel framework for trajectory synthesis and training. WebSynthesis leverages a learned world model to simulate virtual web environments, allowing a policy agent to perform efficient and reversible tree-based planning. This approach supports the large-scale generation of diverse and high-quality trajectories, which are subsequently utilized to refine the agent's policy. Experimental results demonstrate that an agent trained using WebSynthesis on a small-scale synthetic dataset achieves performance comparable to or even surpassing that of models trained on large-scale real-world data.