WebUncertainty: Dual-Level Uncertainty Driven Planning and Reasoning For Autonomous Web Agent

作者: Lingfeng Zhang, yongan sun, Jinpeng Hu, Hui Ma, yang ying, Kuien Liu, Zenglin Shi, Meng Wang

分类: cs.AI

发布日期: 2026-04-20

💡 一句话要点

WebUncertainty：双重不确定性驱动的自主Web代理规划与推理

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自主Web代理 不确定性建模 自适应规划 蒙特卡洛树搜索 人机交互

📋 核心要点

现有Web代理在动态交互和长时程执行的复杂任务中表现不佳，主要原因是规划策略僵化和推理易产生幻觉。
WebUncertainty通过任务不确定性驱动的自适应规划和动作不确定性驱动的MCTS推理，应对规划和推理中的双重不确定性。
实验表明，WebUncertainty在WebArena和WebVoyager基准测试中优于现有方法，验证了其有效性。

📝 摘要（中文）

本文提出WebUncertainty，一种新颖的自主代理框架，旨在解决规划和推理中的双重不确定性，以提升自主Web代理在复杂任务中的表现。该框架包含任务不确定性驱动的自适应规划机制，用于在未知环境中灵活选择规划模式。同时，引入动作不确定性驱动的蒙特卡洛树搜索（MCTS）推理机制，该机制结合置信度引导的动作不确定性（ConActU）策略，量化偶然不确定性（AU）和认知不确定性（EU），从而优化搜索过程并指导稳健的决策。在WebArena和WebVoyager基准测试上的实验结果表明，WebUncertainty的性能优于现有技术水平的基线模型。

🔬 方法详解

问题定义：现有自主Web代理在执行复杂任务时，面临着环境的动态变化和任务的长时程特性带来的挑战。传统的规划策略往往较为僵化，难以适应环境变化，而推理过程又容易产生幻觉，导致决策失误。因此，如何有效地应对规划和推理过程中的不确定性，是提升Web代理性能的关键问题。

核心思路：WebUncertainty的核心思路是通过量化和利用规划和推理过程中的不确定性来提升Web代理的性能。具体来说，它区分了任务层面的不确定性和动作层面的不确定性，并分别设计了自适应规划机制和MCTS推理机制来应对。通过自适应规划，代理可以根据任务的不确定性动态调整规划策略；通过MCTS推理，代理可以根据动作的不确定性优化搜索过程，从而做出更稳健的决策。

技术框架：WebUncertainty框架包含两个主要模块：任务不确定性驱动的自适应规划机制和动作不确定性驱动的MCTS推理机制。任务不确定性驱动的自适应规划机制根据当前任务的不确定性程度，动态选择合适的规划模式，例如，当任务不确定性较高时，采用更探索性的规划策略。动作不确定性驱动的MCTS推理机制则利用蒙特卡洛树搜索算法，结合置信度引导的动作不确定性（ConActU）策略，对动作空间进行搜索，选择最优动作。

关键创新：WebUncertainty的关键创新在于它同时考虑了任务层面和动作层面的不确定性，并设计了相应的机制来应对。传统的Web代理往往只关注动作层面的选择，而忽略了任务层面的不确定性对规划的影响。此外，WebUncertainty提出的ConActU策略能够有效地量化偶然不确定性（AU）和认知不确定性（EU），从而更准确地评估动作的风险。

关键设计：ConActU策略是WebUncertainty的关键设计之一。它通过结合模型的置信度来量化动作的不确定性。具体来说，ConActU策略将动作的不确定性定义为模型置信度的函数，置信度越低，不确定性越高。此外，在MCTS搜索过程中，WebUncertainty采用了UCT（Upper Confidence Bound 1 applied to Trees）算法的变体，以平衡探索和利用，从而更有效地搜索动作空间。

🖼️ 关键图片

📊 实验亮点

WebUncertainty在WebArena和WebVoyager基准测试中取得了显著的性能提升。具体来说，在WebArena上，WebUncertainty的成功率比现有最佳基线提高了约10%。在WebVoyager上，WebUncertainty也取得了类似的性能提升，验证了其在不同Web环境下的泛化能力。

🎯 应用场景

WebUncertainty具有广泛的应用前景，例如智能客服、自动化信息检索、在线购物助手等。它可以帮助用户更高效地完成各种Web任务，例如预订机票、查找商品信息、填写在线表格等。未来，WebUncertainty有望应用于更复杂的Web场景，例如自动化软件测试、智能网页设计等，从而进一步提升Web应用的智能化水平。

📄 摘要（原文）

Recent advancements in large language models (LLMs) have empowered autonomous web agents to execute natural language instructions directly on real-world webpages. However, existing agents often struggle with complex tasks involving dynamic interactions and long-horizon execution due to rigid planning strategies and hallucination-prone reasoning. To address these limitations, we propose WebUncertainty, a novel autonomous agent framework designed to tackle dual-level uncertainty in planning and reasoning. Specifically, we design a Task Uncertainty-Driven Adaptive Planning Mechanism that adaptively selects planning modes to navigate unknown environments. Furthermore, we introduce an Action Uncertainty-Driven Monte Carlo tree search (MCTS) Reasoning Mechanism. This mechanism incorporates the Confidence-induced Action Uncertainty (ConActU) strategy to quantify both aleatoric uncertainty (AU) and epistemic uncertainty (EU), thereby optimizing the search process and guiding robust decision-making. Experimental results on the WebArena and WebVoyager benchmarks demonstrate that WebUncertainty achieves superior performance compared to state-of-the-art baselines.

WebUncertainty: Dual-Level Uncertainty Driven Planning and Reasoning For Autonomous Web Agent

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理