WebSynthesis: World-Model-Guided MCTS for Efficient WebUI-Trajectory Synthesis

作者: Yifei Gao, Junhong Ye, Jiaqi Wang, Jitao Sang

分类: cs.AI

发布日期: 2025-07-06

💡 一句话要点

WebSynthesis：利用世界模型引导的MCTS高效合成WebUI交互轨迹

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Web代理 世界模型 轨迹合成 蒙特卡洛树搜索 强化学习

📋 核心要点

现有Web代理方法在真实或沙盒环境中交互，面临环境状态不可控和API成本高昂的挑战，阻碍了可扩展的自改进。
WebSynthesis通过学习世界模型来模拟虚拟Web环境，使代理能够进行高效且可逆的基于树的规划，从而合成高质量轨迹。
实验表明，在小规模合成数据集上使用WebSynthesis训练的代理，性能可与甚至超过在大型真实世界数据上训练的模型。

📝 摘要（中文）

大型语言模型（LLMs）的最新进展显著提升了Web代理的能力。然而，有效导航复杂且动态的Web环境仍然需要更高级别的轨迹规划和执行。先前的研究通过从真实环境交互中收集大量的GUI轨迹来改进代理。尽管这些方法有效，但它们面临两个关键挑战：（1）不可控的环境状态，真实或沙盒Web环境通常产生不稳定和非确定性的反馈，使得代理行为的重现和调试变得复杂；（2）高昂的API成本，因为生成单个交互轨迹可能涉及数百个查询，导致大量的API使用和计算费用。为了解决这些限制并实现代理的可扩展自改进，我们提出了WebSynthesis，一个用于轨迹合成和训练的新框架。WebSynthesis利用学习到的世界模型来模拟虚拟Web环境，允许策略代理执行高效且可逆的基于树的规划。这种方法支持大规模生成多样化和高质量的轨迹，这些轨迹随后被用于改进代理的策略。实验结果表明，使用WebSynthesis在小规模合成数据集上训练的代理，其性能可与甚至超过在大型真实世界数据上训练的模型。

🔬 方法详解

问题定义：现有Web代理在真实或沙盒环境中进行交互式学习，但真实Web环境具有不确定性和不稳定性，导致难以复现和调试代理行为。同时，与真实Web环境交互需要频繁调用API，成本高昂，限制了大规模自学习。

核心思路：WebSynthesis的核心思路是构建一个可学习的世界模型，该模型能够模拟Web环境的行为。代理在虚拟环境中进行探索和学习，生成高质量的交互轨迹，然后利用这些轨迹来训练和改进代理的策略。通过在虚拟环境中进行训练，可以避免真实Web环境的不确定性和高昂的API成本。

技术框架：WebSynthesis包含以下主要模块：1) 世界模型：用于模拟Web环境的行为，接收代理的动作并预测下一个状态。2) 策略代理：负责生成与Web环境交互的动作。3) 基于MCTS的轨迹规划器：利用世界模型进行前瞻搜索，生成高质量的交互轨迹。4) 训练模块：使用生成的轨迹来训练和改进策略代理。

关键创新：WebSynthesis的关键创新在于利用学习到的世界模型来模拟Web环境，从而实现高效且可控的轨迹合成。与直接在真实Web环境中进行交互学习的方法相比，WebSynthesis可以避免环境的不确定性和高昂的API成本，从而实现更高效和可扩展的自学习。

关键设计：世界模型可以使用各种神经网络结构来实现，例如Transformer或RNN。MCTS算法用于在虚拟环境中进行前瞻搜索，选择最优的动作序列。训练模块可以使用各种强化学习算法，例如PPO或DQN。论文中可能还涉及一些超参数的调整，例如MCTS的搜索深度、世界模型的训练数据量等，但具体细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用WebSynthesis在小规模合成数据集上训练的代理，其性能可与甚至超过在大型真实世界数据上训练的模型。这表明WebSynthesis能够有效地利用合成数据来训练Web代理，从而降低对真实数据的依赖，并提高训练效率。具体的性能提升幅度未知，需要参考论文中的详细实验数据。

🎯 应用场景

WebSynthesis可应用于开发更智能、更高效的Web代理，例如自动化网页测试、智能信息检索、自动化数据抓取等。该技术能够降低Web代理的开发成本，提高其稳定性和可靠性，并促进Web代理在更广泛领域的应用。未来，该技术可能被用于构建更复杂的Web应用，例如智能客服、自动化办公等。

📄 摘要（原文）

Recent advancements in large language models (LLMs) have significantly improved the capabilities of web agents. However, effectively navigating complex and dynamic web environments still requires more advanced trajectory-level planning and execution. Prior studies have addressed self-improving agents by collecting extensive GUI trajectories from real-environment interactions. Despite their effectiveness, these approaches encounter two critical challenges: (1) Uncontrollable environment states, where real or sandboxed web environments often yield unstable and non-deterministic feedback, complicating the reproduction and debugging of agent behaviors; and (2) High API costs, as generating even a single interaction trajectory can involve hundreds of queries, leading to considerable API usage and computational expenses. To address these limitations and enable scalable self-improvement for agents, we propose WebSynthesis, a novel framework for trajectory synthesis and training. WebSynthesis leverages a learned world model to simulate virtual web environments, allowing a policy agent to perform efficient and reversible tree-based planning. This approach supports the large-scale generation of diverse and high-quality trajectories, which are subsequently utilized to refine the agent's policy. Experimental results demonstrate that an agent trained using WebSynthesis on a small-scale synthetic dataset achieves performance comparable to or even surpassing that of models trained on large-scale real-world data.

WebSynthesis: World-Model-Guided MCTS for Efficient WebUI-Trajectory Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理