Branch-and-Browse: Efficient and Controllable Web Exploration with Tree-Structured Reasoning and Action Memory
作者: Shiqi He, Yue Cui, Xinyu Ma, Yaliang Li, Bolin Ding, Mosharaf Chowdhury
分类: cs.AI, cs.CL, cs.LG
发布日期: 2025-10-18
💡 一句话要点
提出 Branch-and-Browse 框架,提升 LLM Web Agent 的推理深度、效率和可控性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Web Agent 大型语言模型 自主探索 树状搜索 Web状态回放
📋 核心要点
- 现有Web Agent在多步推理和有效回溯方面存在不足,搜索策略也存在粗糙和高计算成本的问题。
- Branch-and-Browse 框架通过树状探索、Web状态回放和页面动作记忆,实现可控、高效的Web Agent。
- 在 WebArena 基准测试中,Branch-and-Browse 框架的任务成功率提升至 35.8%,执行时间减少了 40.4%。
📝 摘要(中文)
本文提出 Branch-and-Browse 框架,旨在提升基于大型语言模型(LLM)的自主Web Agent在目标导向任务中的性能,例如信息检索、报告生成和在线交易。现有方法在推理深度和效率方面存在局限性:线性方法难以进行多步推理且缺乏有效回溯,而其他搜索策略则过于粗糙且计算成本高昂。Branch-and-Browse 框架统一了结构化推理-行动、上下文记忆和高效执行,通过(i)采用显式子任务管理和树状探索实现可控的多分支推理,(ii)通过高效的Web状态回放和背景推理来引导探索,以及(iii)利用页面动作记忆来共享会话内和会话间的已探索动作。在 WebArena 基准测试中,Branch-and-Browse 的任务成功率达到 35.8%,并且相对于最先进的方法,执行时间减少了高达 40.4%。实验结果表明 Branch-and-Browse 是一个可靠且高效的 LLM Web Agent 框架。
🔬 方法详解
问题定义:现有基于LLM的Web Agent在复杂网络环境下的推理能力不足,难以完成需要多步骤交互的任务。线性探索方法缺乏有效的回溯机制,一旦陷入错误路径难以纠正。而其他搜索策略,例如广度优先搜索,计算成本过高,效率低下。因此,如何提升Web Agent的推理深度、效率和可控性是一个关键问题。
核心思路:Branch-and-Browse 的核心思路是将Web探索过程建模成一个树状搜索过程,每个节点代表一个Web状态,每个分支代表一个可能的动作序列。通过显式的子任务管理,Agent可以同时探索多个分支,并在必要时进行回溯。同时,利用Web状态回放和页面动作记忆来加速探索过程,避免重复劳动。
技术框架:Branch-and-Browse 框架包含三个主要模块:(1)树状探索模块:负责维护一个树状结构,每个节点代表一个Web状态,边代表一个动作。Agent根据当前状态选择一个动作,并将其添加到树中。(2)Web状态回放模块:负责存储和回放已探索的Web状态,避免重复访问相同的页面。(3)页面动作记忆模块:负责记录已执行的动作,并在后续的探索过程中优先尝试这些动作。整体流程是,Agent从初始状态开始,利用树状探索模块进行探索,同时利用Web状态回放模块和页面动作记忆模块来加速探索过程。
关键创新:Branch-and-Browse 的关键创新在于将Web探索过程建模成一个树状搜索过程,并利用Web状态回放和页面动作记忆来加速探索过程。与传统的线性探索方法相比,Branch-and-Browse 可以同时探索多个分支,并在必要时进行回溯,从而提高了推理深度和成功率。与其他的搜索策略相比,Branch-and-Browse 利用Web状态回放和页面动作记忆来避免重复劳动,从而提高了效率。
关键设计:在树状探索模块中,Agent需要根据当前状态选择一个动作。论文采用了一种基于LLM的动作选择策略,该策略根据当前状态和目标,生成一个候选动作列表,并从中选择一个最佳动作。在Web状态回放模块中,论文采用了一种基于哈希的存储和检索方法,以提高效率。在页面动作记忆模块中,论文采用了一种基于频率的排序方法,优先尝试最常用的动作。具体的参数设置和损失函数等技术细节在论文中没有详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Branch-and-Browse 框架在 WebArena 基准测试中取得了显著的性能提升。相较于最先进的方法,Branch-and-Browse 的任务成功率提高了 35.8%,执行时间减少了高达 40.4%。这些数据表明 Branch-and-Browse 框架在推理深度、效率和可控性方面都具有显著优势。
🎯 应用场景
Branch-and-Browse 框架可应用于各种需要自主Web交互的场景,例如智能客服、自动化报告生成、在线购物助手等。该框架能够显著提升Agent在复杂网络环境下的任务完成能力,降低人工干预的需求,具有广阔的应用前景和实际价值。未来,可以进一步探索该框架在其他领域的应用,例如机器人导航、游戏AI等。
📄 摘要(原文)
Autonomous web agents powered by large language models (LLMs) show strong potential for performing goal-oriented tasks such as information retrieval, report generation, and online transactions. These agents mark a key step toward practical embodied reasoning in open web environments. However, existing approaches remain limited in reasoning depth and efficiency: vanilla linear methods fail at multi-step reasoning and lack effective backtracking, while other search strategies are coarse-grained and computationally costly. We introduce Branch-and-Browse, a fine-grained web agent framework that unifies structured reasoning-acting, contextual memory, and efficient execution. It (i) employs explicit subtask management with tree-structured exploration for controllable multi-branch reasoning, (ii) bootstraps exploration through efficient web state replay with background reasoning, and (iii) leverages a page action memory to share explored actions within and across sessions. On the WebArena benchmark, Branch-and-Browse achieves a task success rate of 35.8\% and reduces execution time by up to 40.4\% relative to state-of-the-art methods. These results demonstrate that Branch-and-Browse is a reliable and efficient framework for LLM-based web agents.