Level-Navi Agent: A Framework and benchmark for Chinese Web Search Agents

📄 arXiv: 2502.15690v1 📥 PDF

作者: Chuanrui Hu, Shichong Xie, Baoxin Wang, Bin Chen, Xiaofeng Cong, Jun Zhang

分类: cs.IR, cs.AI, cs.CL

发布日期: 2024-12-20


💡 一句话要点

提出Level-Navi Agent框架与Web24基准,用于评估中文Web搜索Agent能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Web搜索Agent 大型语言模型 中文Web搜索 层级导航 基准数据集

📋 核心要点

  1. 现有中文Web搜索Agent缺乏统一框架、精确标注数据集和合适的评估指标,导致开源模型能力评估不足。
  2. Level-Navi Agent通过层级感知的导航,无需训练即可进行Web搜索,解决复杂用户问题的信息收集。
  3. 论文构建了Web24数据集并设计评估指标,对现有LLM进行了全面评估,为后续研究提供基准。

📝 摘要(中文)

大型语言模型(LLMs)在理解人类语言方面的应用推动了人工智能(AI)Web搜索Agent的发展。与传统搜索引擎相比,基于LLM的AI搜索Agent能够更深入地理解和响应复杂查询,从而实现更准确的操作和更好的上下文识别。然而,对中文Web搜索的关注和投入相对较少,导致开源模型的能力未能得到统一和公平的评估。这主要缺乏统一的Agent框架、精确标注的数据集以及合适的评估指标。为了解决这些问题,我们提出了一种通用的、无需训练的Web搜索Agent,即Level-Navi Agent,它通过层级感知的导航进行搜索。同时,我们还提供了一个良好标注的数据集(Web24)和一个合适的评估指标。Level-Navi Agent能够深入思考复杂的用户问题,并在互联网的各个层级进行搜索,以收集问题所需的信息。此外,我们还在公平的环境下对最先进的LLM进行了全面评估。源代码已在Github上提供,以进一步促进未来的研究。

🔬 方法详解

问题定义:论文旨在解决中文Web搜索Agent能力评估不足的问题。现有方法缺乏统一的Agent框架、高质量的标注数据集以及合适的评估指标,导致无法对开源LLM在中文Web搜索任务中的性能进行公平、全面的评估。这阻碍了中文Web搜索Agent的进一步发展。

核心思路:论文的核心思路是构建一个通用的、无需训练的Web搜索Agent框架(Level-Navi Agent),并配套一个高质量的中文Web搜索数据集(Web24)和一个合适的评估指标。Level-Navi Agent通过模拟人类在不同层级网站上搜索信息的行为,实现对复杂用户问题的解答。

技术框架:Level-Navi Agent的整体架构包含以下主要模块:1) 问题理解模块:利用LLM理解用户提出的复杂问题。2) 层级导航模块:根据问题类型和当前搜索结果,决定下一步搜索的层级(例如,从通用搜索引擎到垂直领域网站)。3) 信息提取模块:从搜索结果中提取关键信息。4) 答案生成模块:基于提取的信息生成最终答案。整个流程是迭代进行的,直到找到满意的答案或达到预设的搜索深度。

关键创新:Level-Navi Agent的关键创新在于其层级感知的导航策略。与传统的Web搜索Agent只依赖单一搜索引擎不同,Level-Navi Agent能够根据问题的复杂度和搜索进度,动态地调整搜索的层级,从而更有效地找到所需的信息。这种策略更接近于人类的搜索行为,能够更好地应对复杂的用户查询。

关键设计:Level-Navi Agent采用了一种无需训练的设计,避免了对大量标注数据的依赖。其层级导航策略依赖于预定义的网站层级结构和启发式规则。例如,对于特定领域的查询,Agent会优先搜索该领域的专业网站。答案生成模块则利用LLM的文本生成能力,将提取的信息整合为连贯的答案。具体的参数设置和网络结构取决于所使用的LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了Level-Navi Agent框架和Web24数据集,并在该数据集上对多个SOTA的LLM进行了评估。实验结果表明,Level-Navi Agent能够有效地解决复杂的用户查询,并且在Web24数据集上取得了显著的性能提升。具体的性能数据和对比基线在论文中有详细展示。

🎯 应用场景

该研究成果可应用于智能客服、知识问答系统、智能助手等领域。Level-Navi Agent框架和Web24基准数据集能够促进中文Web搜索Agent的研发和评估,提升相关应用的用户体验和智能化水平。未来,该研究可扩展到其他语言和领域,推动通用Web搜索Agent的发展。

📄 摘要(原文)

Large language models (LLMs), adopted to understand human language, drive the development of artificial intelligence (AI) web search agents. Compared to traditional search engines, LLM-powered AI search agents are capable of understanding and responding to complex queries with greater depth, enabling more accurate operations and better context recognition. However, little attention and effort has been paid to the Chinese web search, which results in that the capabilities of open-source models have not been uniformly and fairly evaluated. The difficulty lies in lacking three aspects: an unified agent framework, an accurately labeled dataset, and a suitable evaluation metric. To address these issues, we propose a general-purpose and training-free web search agent by level-aware navigation, Level-Navi Agent, accompanied by a well-annotated dataset (Web24) and a suitable evaluation metric. Level-Navi Agent can think through complex user questions and conduct searches across various levels on the internet to gather information for questions. Meanwhile, we provide a comprehensive evaluation of state-of-the-art LLMs under fair settings. To further facilitate future research, source code is available at Github.