WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking

📄 arXiv: 2510.24697v1 📥 PDF

作者: Zhengwei Tao, Haiyang Shen, Baixuan Li, Wenbiao Yin, Jialong Wu, Kuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Liwen Zhang, Xinyu Wang, Pengjun Xie, Jingren Zhou, Yong Jiang

分类: cs.CL

发布日期: 2025-10-28


💡 一句话要点

WebLeaper:通过信息丰富的搜索,提升WebAgent的效率和效能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: WebAgent 信息搜索 大型语言模型 效率提升 知识图谱 任务生成 轨迹优化

📋 核心要点

  1. 现有基于LLM的Agent在信息搜索方面效率低下,主要原因是训练数据中目标实体稀疏,限制了Agent学习高效搜索行为。
  2. WebLeaper框架通过将信息搜索建模为树状推理问题,并利用维基百科表格生成高覆盖率的训练任务,从而提高搜索效率。
  3. 实验结果表明,WebLeaper在多个信息搜索基准测试中,相比现有方法,在有效性和效率上均取得了显著提升。

📝 摘要(中文)

基于大型语言模型(LLM)的Agent已成为解决开放式问题的一种变革性方法,其中信息搜索(IS)是实现自主推理和决策的核心能力。虽然之前的研究主要集中在提高检索深度上,但我们观察到,当前的IS Agent通常存在搜索效率低下的问题,这反过来又限制了整体性能。这种低效率的一个关键因素是训练任务中目标实体的稀疏性,这限制了Agent学习和泛化高效搜索行为的机会。为了应对这些挑战,我们提出了WebLeaper,一个用于构建高覆盖率IS任务并生成高效解决方案轨迹的框架。我们将IS形式化为一个树状结构的推理问题,从而能够将更大数量的目标实体嵌入到受约束的上下文中。利用精心策划的维基百科表格,我们提出了三种用于合成IS任务的变体:Basic、Union和Reverse-Union,以系统地提高IS效率和效能。最后,我们通过仅保留那些既准确又高效的轨迹来管理训练轨迹,确保模型针对正确性和搜索性能进行优化。在BrowserComp、GAIA、xbench-DeepSearch、WideSearch和Seal-0这五个IS基准上进行的基础和综合设置的大量实验表明,我们的方法始终如一地在有效性和效率方面优于强大的基线。

🔬 方法详解

问题定义:论文旨在解决基于LLM的WebAgent在信息搜索任务中效率低下的问题。现有方法主要关注检索深度,忽略了搜索效率,导致整体性能受限。训练数据中目标实体稀疏是导致效率低下的关键因素,Agent难以学习和泛化高效的搜索策略。

核心思路:论文的核心思路是通过构建信息丰富的训练任务来提高Agent的学习效率和搜索能力。具体而言,将信息搜索任务形式化为树状结构的推理问题,从而在有限的上下文中嵌入更多的目标实体,增加Agent的学习机会。同时,通过筛选训练轨迹,只保留那些既准确又高效的轨迹,从而优化Agent的搜索性能。

技术框架:WebLeaper框架主要包含以下几个关键模块:1)任务生成模块:利用维基百科表格,生成三种不同类型的IS任务(Basic, Union, Reverse-Union),以增加目标实体的覆盖率和任务的多样性。2)轨迹生成模块:生成Agent在IS任务中的搜索轨迹。3)轨迹筛选模块:根据准确性和效率指标,筛选高质量的训练轨迹。4)模型训练模块:使用筛选后的轨迹训练Agent,优化其搜索策略。

关键创新:WebLeaper的关键创新在于其任务生成方法和轨迹筛选策略。传统方法通常依赖于人工标注或自动生成的数据,但这些数据往往存在目标实体稀疏的问题。WebLeaper通过利用维基百科表格,能够自动生成高覆盖率的IS任务,从而显著提高Agent的学习效率。此外,轨迹筛选策略能够确保Agent学习到既准确又高效的搜索策略,从而提高整体性能。

关键设计:在任务生成方面,论文设计了三种任务变体(Basic, Union, Reverse-Union),以增加任务的多样性。Basic任务直接从维基百科表格中提取信息;Union任务将多个表格的信息进行合并;Reverse-Union任务则需要Agent进行逆向推理。在轨迹筛选方面,论文定义了准确性和效率两个指标,并设置阈值来筛选高质量的训练轨迹。具体的参数设置和阈值选择可能需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,WebLeaper在五个信息搜索基准测试(BrowserComp, GAIA, xbench-DeepSearch, WideSearch, Seal-0)中均取得了显著的性能提升。例如,在GAIA基准测试中,WebLeaper相比现有最佳方法,在准确率和效率方面均有明显提升。这些结果表明,WebLeaper能够有效地提高WebAgent的信息搜索能力。

🎯 应用场景

WebLeaper的研究成果可以应用于各种需要信息搜索的WebAgent,例如智能助手、自动问答系统、搜索引擎等。通过提高搜索效率和准确性,可以显著提升这些Agent的性能和用户体验。未来,该方法还可以扩展到其他领域,例如知识图谱推理、推荐系统等,具有广泛的应用前景。

📄 摘要(原文)

Large Language Model (LLM)-based agents have emerged as a transformative approach for open-ended problem solving, with information seeking (IS) being a core capability that enables autonomous reasoning and decision-making. While prior research has largely focused on improving retrieval depth, we observe that current IS agents often suffer from low search efficiency, which in turn constrains overall performance. A key factor underlying this inefficiency is the sparsity of target entities in training tasks, which limits opportunities for agents to learn and generalize efficient search behaviors. To address these challenges, we propose WebLeaper, a framework for constructing high-coverage IS tasks and generating efficient solution trajectories. We formulate IS as a tree-structured reasoning problem, enabling a substantially larger set of target entities to be embedded within a constrained context. Leveraging curated Wikipedia tables, we propose three variants for synthesizing IS tasks, Basic, Union, and Reverse-Union, to systematically increase both IS efficiency and efficacy. Finally, we curate training trajectories by retaining only those that are simultaneously accurate and efficient, ensuring that the model is optimized for both correctness and search performance. Extensive experiments on both basic and comprehensive settings, conducted on five IS benchmarks, BrowserComp, GAIA, xbench-DeepSearch, WideSearch, and Seal-0, demonstrate that our method consistently achieves improvements in both effectiveness and efficiency over strong baselines.