WebUncertainty: Dual-Level Uncertainty Driven Planning and Reasoning For Autonomous Web Agent
作者: Lingfeng Zhang, yongan sun, Jinpeng Hu, Hui Ma, yang ying, Kuien Liu, Zenglin Shi, Meng Wang
分类: cs.AI
发布日期: 2026-04-20
💡 一句话要点
WebUncertainty:双重不确定性驱动的自主Web代理规划与推理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自主Web代理 不确定性建模 自适应规划 蒙特卡洛树搜索 人机交互
📋 核心要点
- 现有Web代理在动态交互和长时程执行的复杂任务中表现不佳,主要原因是规划策略僵化和推理易产生幻觉。
- WebUncertainty通过任务不确定性驱动的自适应规划和动作不确定性驱动的MCTS推理,应对规划和推理中的双重不确定性。
- 实验表明,WebUncertainty在WebArena和WebVoyager基准测试中优于现有方法,验证了其有效性。
📝 摘要(中文)
本文提出WebUncertainty,一种新颖的自主代理框架,旨在解决规划和推理中的双重不确定性,以提升自主Web代理在复杂任务中的表现。该框架包含任务不确定性驱动的自适应规划机制,用于在未知环境中灵活选择规划模式。同时,引入动作不确定性驱动的蒙特卡洛树搜索(MCTS)推理机制,该机制结合置信度引导的动作不确定性(ConActU)策略,量化偶然不确定性(AU)和认知不确定性(EU),从而优化搜索过程并指导稳健的决策。在WebArena和WebVoyager基准测试上的实验结果表明,WebUncertainty的性能优于现有技术水平的基线模型。
🔬 方法详解
问题定义:现有自主Web代理在执行复杂任务时,面临着环境的动态变化和任务的长时程特性带来的挑战。传统的规划策略往往较为僵化,难以适应环境变化,而推理过程又容易产生幻觉,导致决策失误。因此,如何有效地应对规划和推理过程中的不确定性,是提升Web代理性能的关键问题。
核心思路:WebUncertainty的核心思路是通过量化和利用规划和推理过程中的不确定性来提升Web代理的性能。具体来说,它区分了任务层面的不确定性和动作层面的不确定性,并分别设计了自适应规划机制和MCTS推理机制来应对。通过自适应规划,代理可以根据任务的不确定性动态调整规划策略;通过MCTS推理,代理可以根据动作的不确定性优化搜索过程,从而做出更稳健的决策。
技术框架:WebUncertainty框架包含两个主要模块:任务不确定性驱动的自适应规划机制和动作不确定性驱动的MCTS推理机制。任务不确定性驱动的自适应规划机制根据当前任务的不确定性程度,动态选择合适的规划模式,例如,当任务不确定性较高时,采用更探索性的规划策略。动作不确定性驱动的MCTS推理机制则利用蒙特卡洛树搜索算法,结合置信度引导的动作不确定性(ConActU)策略,对动作空间进行搜索,选择最优动作。
关键创新:WebUncertainty的关键创新在于它同时考虑了任务层面和动作层面的不确定性,并设计了相应的机制来应对。传统的Web代理往往只关注动作层面的选择,而忽略了任务层面的不确定性对规划的影响。此外,WebUncertainty提出的ConActU策略能够有效地量化偶然不确定性(AU)和认知不确定性(EU),从而更准确地评估动作的风险。
关键设计:ConActU策略是WebUncertainty的关键设计之一。它通过结合模型的置信度来量化动作的不确定性。具体来说,ConActU策略将动作的不确定性定义为模型置信度的函数,置信度越低,不确定性越高。此外,在MCTS搜索过程中,WebUncertainty采用了UCT(Upper Confidence Bound 1 applied to Trees)算法的变体,以平衡探索和利用,从而更有效地搜索动作空间。
🖼️ 关键图片
📊 实验亮点
WebUncertainty在WebArena和WebVoyager基准测试中取得了显著的性能提升。具体来说,在WebArena上,WebUncertainty的成功率比现有最佳基线提高了约10%。在WebVoyager上,WebUncertainty也取得了类似的性能提升,验证了其在不同Web环境下的泛化能力。
🎯 应用场景
WebUncertainty具有广泛的应用前景,例如智能客服、自动化信息检索、在线购物助手等。它可以帮助用户更高效地完成各种Web任务,例如预订机票、查找商品信息、填写在线表格等。未来,WebUncertainty有望应用于更复杂的Web场景,例如自动化软件测试、智能网页设计等,从而进一步提升Web应用的智能化水平。
📄 摘要(原文)
Recent advancements in large language models (LLMs) have empowered autonomous web agents to execute natural language instructions directly on real-world webpages. However, existing agents often struggle with complex tasks involving dynamic interactions and long-horizon execution due to rigid planning strategies and hallucination-prone reasoning. To address these limitations, we propose WebUncertainty, a novel autonomous agent framework designed to tackle dual-level uncertainty in planning and reasoning. Specifically, we design a Task Uncertainty-Driven Adaptive Planning Mechanism that adaptively selects planning modes to navigate unknown environments. Furthermore, we introduce an Action Uncertainty-Driven Monte Carlo tree search (MCTS) Reasoning Mechanism. This mechanism incorporates the Confidence-induced Action Uncertainty (ConActU) strategy to quantify both aleatoric uncertainty (AU) and epistemic uncertainty (EU), thereby optimizing the search process and guiding robust decision-making. Experimental results on the WebArena and WebVoyager benchmarks demonstrate that WebUncertainty achieves superior performance compared to state-of-the-art baselines.