WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization

📄 arXiv: 2507.15061v1 📥 PDF

作者: Zhengwei Tao, Jialong Wu, Wenbiao Yin, Junkai Zhang, Baixuan Li, Haiyang Shen, Kuan Li, Liwen Zhang, Xinyu Wang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou

分类: cs.CL, cs.AI

发布日期: 2025-07-20


💡 一句话要点

提出WebShaper以解决信息检索代理数据合成问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 信息检索 数据合成 知识投影 人工智能 大型语言模型 形式化方法 推理结构 多步扩展

📋 核心要点

  1. 现有信息检索代理方法在数据合成过程中存在信息结构与推理结构不一致的问题,限制了其性能。
  2. 本文提出WebShaper框架,通过集合论形式化IS任务,利用知识投影(KP)实现推理结构的精确控制。
  3. 实验结果显示,WebShaper在GAIA和WebWalkerQA基准上超越了现有开源IS代理,展现出显著的性能提升。

📝 摘要(中文)

大型语言模型(LLM)驱动的代理技术通过网络信息检索(IS)能力,改变了人工智能在复杂开放任务中的应用。然而,高质量训练数据的稀缺限制了IS代理的发展。现有方法通常采用信息驱动的范式,先收集网络数据再生成问题,这可能导致信息结构与推理结构之间的不一致。为此,本文提出了WebShaper,一个基于形式化驱动的IS数据合成框架,通过集合论系统化地形式化IS任务。核心概念为知识投影(KP),通过KP操作组合精确控制推理结构。合成过程中,首先创建种子任务,然后通过多步扩展过程逐步复杂化当前形式化问题。实验结果表明,WebShaper在GAIA和WebWalkerQA基准上实现了开源IS代理的最先进性能。

🔬 方法详解

问题定义:本文旨在解决现有信息检索代理在数据合成过程中信息结构与推理结构不一致的问题,导致生成问题的质量不高。

核心思路:WebShaper框架通过形式化驱动的方式,利用集合论对IS任务进行系统化形式化,核心在于知识投影(KP),以实现对推理结构的精确控制。

技术框架:WebShaper的整体架构包括种子任务创建、多步扩展过程和代理扩展模块。在每一步中,代理扩展器利用检索和验证工具,基于形式化内容扩展当前问题的复杂性。

关键创新:WebShaper的主要创新在于引入知识投影(KP)概念,通过KP操作组合实现对推理结构的精确控制,这与现有方法的简单信息驱动范式形成鲜明对比。

关键设计:在模型训练中,WebShaper采用了多步扩展策略,结合损失函数和网络结构的优化设计,以确保生成问题的质量和一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在GAIA和WebWalkerQA基准测试中,WebShaper实现了最先进的性能,超越了现有开源IS代理,具体性能提升幅度未知,展示了其在信息检索任务中的有效性。

🎯 应用场景

WebShaper的研究成果可广泛应用于智能问答系统、信息检索和自动化内容生成等领域。通过提高数据合成的质量,能够显著提升AI系统在复杂任务中的表现,具有重要的实际价值和未来影响。

📄 摘要(原文)

The advent of Large Language Model (LLM)-powered agents has revolutionized artificial intelligence by enabling solutions to complex, open-ended tasks through web-based information-seeking (IS) capabilities. The scarcity of high-quality training data has limited the development of IS agents. Existing approaches typically adopt an information-driven paradigm that first collects web data and then generates questions based on the retrieval. However, this may lead to inconsistency between information structure and reasoning structure, question and answer. To mitigate, we propose a formalization-driven IS data synthesis framework WebShaper to construct a dataset. WebShaper systematically formalizes IS tasks through set theory. Central to the formalization is the concept of Knowledge Projections (KP), which enables precise control over reasoning structure by KP operation compositions. During synthesis, we begin by creating seed tasks, then use a multi-step expansion process. At each step, an agentic Expander expands the current formal question more complex with retrieval and validation tools based on our formalization. We train our model on the synthesized dataset. Experiment results demonstrate that WebShaper achieves state-of-the-art performance among open-sourced IS agents on GAIA and WebWalkerQA benchmarks.