Branch-and-Browse: Efficient and Controllable Web Exploration with Tree-Structured Reasoning and Action Memory

作者: Shiqi He, Yue Cui, Xinyu Ma, Yaliang Li, Bolin Ding, Mosharaf Chowdhury

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-10-18

💡 一句话要点

提出 Branch-and-Browse 框架，提升 LLM Web Agent 的推理深度、效率和可控性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Web Agent 大型语言模型 自主探索 树状搜索 Web状态回放

📋 核心要点

现有Web Agent在多步推理和有效回溯方面存在不足，搜索策略也存在粗糙和高计算成本的问题。
Branch-and-Browse 框架通过树状探索、Web状态回放和页面动作记忆，实现可控、高效的Web Agent。
在 WebArena 基准测试中，Branch-and-Browse 框架的任务成功率提升至 35.8%，执行时间减少了 40.4%。

📝 摘要（中文）

本文提出 Branch-and-Browse 框架，旨在提升基于大型语言模型（LLM）的自主Web Agent在目标导向任务中的性能，例如信息检索、报告生成和在线交易。现有方法在推理深度和效率方面存在局限性：线性方法难以进行多步推理且缺乏有效回溯，而其他搜索策略则过于粗糙且计算成本高昂。Branch-and-Browse 框架统一了结构化推理-行动、上下文记忆和高效执行，通过（i）采用显式子任务管理和树状探索实现可控的多分支推理，（ii）通过高效的Web状态回放和背景推理来引导探索，以及（iii）利用页面动作记忆来共享会话内和会话间的已探索动作。在 WebArena 基准测试中，Branch-and-Browse 的任务成功率达到 35.8%，并且相对于最先进的方法，执行时间减少了高达 40.4%。实验结果表明 Branch-and-Browse 是一个可靠且高效的 LLM Web Agent 框架。

🔬 方法详解

问题定义：现有基于LLM的Web Agent在复杂网络环境下的推理能力不足，难以完成需要多步骤交互的任务。线性探索方法缺乏有效的回溯机制，一旦陷入错误路径难以纠正。而其他搜索策略，例如广度优先搜索，计算成本过高，效率低下。因此，如何提升Web Agent的推理深度、效率和可控性是一个关键问题。

核心思路：Branch-and-Browse 的核心思路是将Web探索过程建模成一个树状搜索过程，每个节点代表一个Web状态，每个分支代表一个可能的动作序列。通过显式的子任务管理，Agent可以同时探索多个分支，并在必要时进行回溯。同时，利用Web状态回放和页面动作记忆来加速探索过程，避免重复劳动。

技术框架：Branch-and-Browse 框架包含三个主要模块：（1）树状探索模块：负责维护一个树状结构，每个节点代表一个Web状态，边代表一个动作。Agent根据当前状态选择一个动作，并将其添加到树中。（2）Web状态回放模块：负责存储和回放已探索的Web状态，避免重复访问相同的页面。（3）页面动作记忆模块：负责记录已执行的动作，并在后续的探索过程中优先尝试这些动作。整体流程是，Agent从初始状态开始，利用树状探索模块进行探索，同时利用Web状态回放模块和页面动作记忆模块来加速探索过程。

关键创新：Branch-and-Browse 的关键创新在于将Web探索过程建模成一个树状搜索过程，并利用Web状态回放和页面动作记忆来加速探索过程。与传统的线性探索方法相比，Branch-and-Browse 可以同时探索多个分支，并在必要时进行回溯，从而提高了推理深度和成功率。与其他的搜索策略相比，Branch-and-Browse 利用Web状态回放和页面动作记忆来避免重复劳动，从而提高了效率。

关键设计：在树状探索模块中，Agent需要根据当前状态选择一个动作。论文采用了一种基于LLM的动作选择策略，该策略根据当前状态和目标，生成一个候选动作列表，并从中选择一个最佳动作。在Web状态回放模块中，论文采用了一种基于哈希的存储和检索方法，以提高效率。在页面动作记忆模块中，论文采用了一种基于频率的排序方法，优先尝试最常用的动作。具体的参数设置和损失函数等技术细节在论文中没有详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Branch-and-Browse 框架在 WebArena 基准测试中取得了显著的性能提升。相较于最先进的方法，Branch-and-Browse 的任务成功率提高了 35.8%，执行时间减少了高达 40.4%。这些数据表明 Branch-and-Browse 框架在推理深度、效率和可控性方面都具有显著优势。

🎯 应用场景

Branch-and-Browse 框架可应用于各种需要自主Web交互的场景，例如智能客服、自动化报告生成、在线购物助手等。该框架能够显著提升Agent在复杂网络环境下的任务完成能力，降低人工干预的需求，具有广阔的应用前景和实际价值。未来，可以进一步探索该框架在其他领域的应用，例如机器人导航、游戏AI等。

📄 摘要（原文）

Autonomous web agents powered by large language models (LLMs) show strong potential for performing goal-oriented tasks such as information retrieval, report generation, and online transactions. These agents mark a key step toward practical embodied reasoning in open web environments. However, existing approaches remain limited in reasoning depth and efficiency: vanilla linear methods fail at multi-step reasoning and lack effective backtracking, while other search strategies are coarse-grained and computationally costly. We introduce Branch-and-Browse, a fine-grained web agent framework that unifies structured reasoning-acting, contextual memory, and efficient execution. It (i) employs explicit subtask management with tree-structured exploration for controllable multi-branch reasoning, (ii) bootstraps exploration through efficient web state replay with background reasoning, and (iii) leverages a page action memory to share explored actions within and across sessions. On the WebArena benchmark, Branch-and-Browse achieves a task success rate of 35.8\% and reduces execution time by up to 40.4\% relative to state-of-the-art methods. These results demonstrate that Branch-and-Browse is a reliable and efficient framework for LLM-based web agents.

Branch-and-Browse: Efficient and Controllable Web Exploration with Tree-Structured Reasoning and Action Memory

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理