Rethinking Agentic Search with Pi-Serini: Is Lexical Retrieval Sufficient?

📄 arXiv: 2605.10848v1 📥 PDF

作者: Tz-Huan Hsu, Jheng-Hong Yang, Jimmy Lin

分类: cs.IR, cs.AI, cs.CL

发布日期: 2026-05-11

备注: 15 pages, 4 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出Pi-Serini搜索代理框架,论证了在强推理LLM加持下词法检索(BM25)在深度研究任务中的有效性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代理式搜索 词法检索 BM25 大语言模型 深度研究 信息检索 证据召回

📋 核心要点

  1. 核心问题:在代理式搜索系统中,现有研究倾向于使用复杂的稠密检索,但词法检索(如BM25)在强推理LLM配合下的潜力尚未被充分挖掘。
  2. 方法要点:提出Pi-Serini框架,通过优化BM25参数配置并增加检索深度,结合LLM的推理与工具调用能力,构建高效的深度研究搜索代理。
  3. 实验效果:Pi-Serini在BrowseComp-Plus上表现优异,答案准确率达83.1%,证据召回率达94.7%,证明了词法检索在特定配置下足以支撑复杂研究任务。

📝 摘要(中文)

随着大语言模型(LLM)在代理循环中展现出更强的推理与工具使用能力,词法检索器是否仍足以支撑深度研究系统?本文重新审视了这一问题,通过将BM25与具备先进推理能力的前沿LLM相结合,提出了Pi-Serini搜索代理。该代理配备了检索、浏览和阅读文档的三项核心工具。在BrowseComp-Plus基准测试上的实验结果表明,配置得当且具有足够检索深度的词法检索器,能够支持高效的深度研究。具体而言,搭载GPT-4o(原文注为gpt-5.5)的Pi-Serini实现了83.1%的答案准确率和94.7%的证据召回率,性能超越了现有的基于稠密检索的搜索代理。消融实验进一步证实,优化BM25参数可提升18.0%的准确率,增加检索深度可提升25.3%的证据召回率。

🔬 方法详解

问题定义:论文旨在探讨在LLM具备强大推理能力的背景下,传统的词法检索(Lexical Retrieval)是否仍是深度研究任务中的最优解,以及如何通过系统工程优化提升其性能。

核心思路:研究者认为,检索系统的性能瓶颈往往不在于检索算法本身,而在于检索深度与参数配置。通过将BM25与具备自主规划能力的LLM代理结合,利用LLM的推理能力弥补词法匹配的语义鸿沟。

技术框架:Pi-Serini框架包含三个核心工具:检索(Retrieval)、浏览(Browsing)和阅读(Reading)。系统通过迭代循环,利用BM25从大规模语料库中获取候选文档,再由LLM进行筛选、阅读并合成最终答案。

关键创新:该研究挑战了“稠密检索优于词法检索”的普遍假设,证明了通过精细化调整BM25参数(如k1和b)并显著增加检索深度(Retrieval Depth),可以以更低的计算成本实现更优的证据召回效果。

关键设计:系统强调了“检索深度”的重要性,通过对比实验发现,增加检索深度对提升证据召回率具有显著的正向作用;同时,通过对BM25进行针对性调优,实现了在不引入复杂向量模型的情况下,大幅提升系统整体的准确率。

📊 实验亮点

实验结果显示,Pi-Serini在BrowseComp-Plus基准上取得了83.1%的答案准确率和94.7%的证据召回率。对比实验表明,经过参数调优的BM25相比默认设置,准确率提升了18.0%,证据召回率提升了11.1%;而增加检索深度则使证据召回率进一步提升了25.3%,证明了系统工程优化在代理搜索中的关键作用。

🎯 应用场景

该研究对构建低成本、高效率的自动化深度研究系统具有重要指导意义。适用于学术文献综述、市场调研、法律案例分析及事实核查等需要从海量文档中提取关键证据并进行逻辑推理的场景,为企业和研究机构提供了一种无需昂贵向量数据库即可实现高性能搜索的替代方案。

📄 摘要(原文)

Does a lexical retriever suffice as large language models (LLMs) become more capable in an agentic loop? This question naturally arises when building deep research systems. We revisit it by pairing BM25 with frontier LLMs that have better reasoning and tool-use abilities. To support researchers asking the same question, we introduce Pi-Serini, a search agent equipped with three tools for retrieving, browsing, and reading documents. Our results show that, on BrowseComp-Plus, a well-configured lexical retriever with sufficient retrieval depth can support effective deep research when paired with more capable LLMs. Specifically, Pi-Serini with gpt-5.5 achieves 83.1% answer accuracy and 94.7% surfaced evidence recall, outperforming released search agents that use dense retrievers. Controlled ablations further show that BM25 tuning improves answer accuracy by 18.0% and surfaced evidence recall by 11.1% over the default BM25 setting, while increasing retrieval depth further improves surfaced evidence recall by 25.3% over the shallow-retrieval setting. Source code is available at https://github.com/justram/pi-serini.