Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers

📄 arXiv: 2505.20128v1 📥 PDF

作者: Zhengliang Shi, Lingyong Yan, Dawei Yin, Suzan Verberne, Maarten de Rijke, Zhaochun Ren

分类: cs.CL

发布日期: 2025-05-26

备注: Working in process


💡 一句话要点

提出EXSEARCH,通过迭代自激励提升大语言模型在知识密集型任务中的搜索能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 信息检索 自激励学习 知识密集型任务 Agentic搜索

📋 核心要点

  1. 现有方法难以使LLM在复杂知识密集型任务中有效检索准确知识,面临多跳查询和无关内容干扰的挑战。
  2. EXSEARCH通过自激励过程,让LLM学习在推理过程中检索有用信息,包括思考、搜索和记录三个步骤。
  3. 实验表明,EXSEARCH在知识密集型基准测试中显著优于基线,精确匹配得分提升高达7.8%。

📝 摘要(中文)

大型语言模型(LLMs)已被广泛应用于信息检索,以改进传统技术。然而,由于多跳查询的复杂性以及检索到的内容的相关性问题,如何有效地使LLMs在复杂任务中寻求准确的知识仍然是一个挑战。为了解决这些限制,我们提出了EXSEARCH,一个agentic搜索框架,其中LLM通过自激励过程学习检索有用的信息,随着推理的展开。在每个步骤中,LLM决定检索什么(思考),触发外部检索器(搜索),并提取细粒度的证据(记录)以支持下一步推理。为了使LLM具备这种能力,EXSEARCH采用了一种广义期望最大化算法。在E步骤中,LLM生成多个搜索轨迹,并为每个轨迹分配一个重要性权重;在M步骤中,使用重新加权的损失函数在这些轨迹上训练LLM。这创建了一个自激励循环,其中LLM从自己生成的数据中迭代学习,逐步改进自身的搜索能力。我们进一步从理论上分析了这种训练过程,建立了收敛性保证。在四个知识密集型基准上的大量实验表明,EXSEARCH显著优于基线,例如,在精确匹配得分上提高了+7.8%。受到这些有希望的结果的激励,我们引入了EXSEARCH-Zoo,这是一个扩展,将我们的方法扩展到更广泛的场景,以促进未来的工作。

🔬 方法详解

问题定义:论文旨在解决大语言模型在知识密集型任务中进行有效信息检索的问题。现有方法在处理复杂的多跳查询时,容易受到检索到的无关内容的干扰,导致无法准确获取所需知识。这限制了LLM在需要大量外部知识支持的任务中的表现。

核心思路:论文的核心思路是利用自激励学习的方式,让LLM通过迭代地生成搜索轨迹并从中学习,逐步提升其信息检索能力。LLM扮演一个agent的角色,通过“思考-搜索-记录”的循环,自主地探索和利用外部知识。这种自激励的方式能够使LLM更好地适应知识密集型任务的需求。

技术框架:EXSEARCH框架包含以下几个主要模块:1) 思考(Thinking):LLM根据当前状态决定下一步需要检索的信息。2) 搜索(Search):LLM触发外部检索器,根据思考模块的输出进行信息检索。3) 记录(Recording):LLM从检索结果中提取细粒度的证据,用于支持下一步的推理。整个框架采用广义期望最大化(Generalized Expectation-Maximization)算法进行训练。在E步骤中,LLM生成多个搜索轨迹,并为每个轨迹分配重要性权重。在M步骤中,使用重新加权的损失函数在这些轨迹上训练LLM。

关键创新:EXSEARCH的关键创新在于其自激励学习机制。LLM不是被动地接受训练数据,而是主动地生成搜索轨迹,并从中学习。这种方式能够使LLM更好地探索知识空间,并学习如何有效地利用外部信息。此外,论文还从理论上分析了该训练过程的收敛性,为该方法的有效性提供了理论支持。

关键设计:在E步骤中,LLM生成多个搜索轨迹,每个轨迹代表一种可能的搜索路径。每个轨迹的重要性权重由LLM自身评估,反映了该轨迹的质量。在M步骤中,使用重新加权的损失函数训练LLM,使得LLM更加关注高质量的搜索轨迹。具体的损失函数设计未知,论文中可能未详细公开。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EXSEARCH在四个知识密集型基准测试中显著优于基线模型,例如在精确匹配得分上取得了高达7.8%的提升。这证明了EXSEARCH框架的有效性,以及自激励学习机制在提升LLM信息检索能力方面的潜力。EXSEARCH-Zoo的推出也为未来的研究提供了便利。

🎯 应用场景

EXSEARCH可应用于需要大量外部知识支持的各种任务,例如问答系统、知识图谱构建、科学研究等。通过提升LLM的信息检索能力,可以使其更好地理解和解决复杂问题,从而提高工作效率和决策质量。该研究对于推动LLM在知识密集型领域的应用具有重要意义。

📄 摘要(原文)

Large language models (LLMs) have been widely integrated into information retrieval to advance traditional techniques. However, effectively enabling LLMs to seek accurate knowledge in complex tasks remains a challenge due to the complexity of multi-hop queries as well as the irrelevant retrieved content. To address these limitations, we propose EXSEARCH, an agentic search framework, where the LLM learns to retrieve useful information as the reasoning unfolds through a self-incentivized process. At each step, the LLM decides what to retrieve (thinking), triggers an external retriever (search), and extracts fine-grained evidence (recording) to support next-step reasoning. To enable LLM with this capability, EXSEARCH adopts a Generalized Expectation-Maximization algorithm. In the E-step, the LLM generates multiple search trajectories and assigns an importance weight to each; the M-step trains the LLM on them with a re-weighted loss function. This creates a self-incentivized loop, where the LLM iteratively learns from its own generated data, progressively improving itself for search. We further theoretically analyze this training process, establishing convergence guarantees. Extensive experiments on four knowledge-intensive benchmarks show that EXSEARCH substantially outperforms baselines, e.g., +7.8% improvement on exact match score. Motivated by these promising results, we introduce EXSEARCH-Zoo, an extension that extends our method to broader scenarios, to facilitate future work.