ReZero: Enhancing LLM search ability by trying one-more-time

📄 arXiv: 2504.11001v1 📥 PDF

作者: Alan Dao, Thinh Le

分类: cs.CL

发布日期: 2025-04-15


💡 一句话要点

ReZero:通过奖励重试机制提升LLM的检索能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大型语言模型 强化学习 信息检索 查询优化

📋 核心要点

  1. 现有RAG方法依赖初始查询质量,缺乏对失败后重试的有效激励机制。
  2. ReZero通过强化学习框架,直接奖励LLM在搜索失败后重试查询的行为。
  3. 实验表明,ReZero显著提升了LLM在知识密集型任务中的准确率,达到46.88%。

📝 摘要(中文)

检索增强生成(RAG)提高了大型语言模型(LLM)在知识密集型任务中的性能,但严重依赖于初始搜索查询的质量。目前的方法,通常使用强化学习(RL),主要集中在查询构建或对结果进行推理,而没有明确地鼓励在搜索失败后继续尝试。我们引入了ReZero(Retry-Zero),这是一个新颖的RL框架,它直接奖励在初始尝试不成功后重试搜索查询的行为。这激励LLM探索替代查询,而不是过早停止。ReZero表现出显著的改进,实现了46.88%的准确率,而基线为25%。通过奖励坚持,ReZero增强了LLM在复杂的、初始查询可能不足的信息搜索场景中的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决RAG中LLM因初始查询质量不佳而导致检索失败的问题。现有方法主要关注查询优化或结果推理,忽略了在首次检索失败后鼓励LLM进行重试的重要性。这导致LLM在复杂信息搜索场景中容易过早放弃,降低了检索效果。

核心思路:ReZero的核心思路是通过强化学习,直接奖励LLM在初始检索失败后进行重试的行为。通过这种方式,激励LLM探索不同的查询策略,提高检索成功的概率。这种方法旨在增强LLM在面对不确定性时的鲁棒性和适应性。

技术框架:ReZero采用强化学习框架,LLM作为智能体,与检索环境进行交互。框架包含以下主要阶段:1) LLM生成初始查询;2) 使用该查询进行检索;3) 根据检索结果判断是否成功;4) 如果失败,LLM生成新的查询;5) ReZero奖励LLM重试的行为。该过程迭代进行,直到检索成功或达到最大重试次数。

关键创新:ReZero的关键创新在于其奖励机制,它直接奖励LLM的重试行为。与传统的只奖励成功检索的方法不同,ReZero鼓励LLM在失败后继续探索,从而提高了检索的覆盖范围和成功率。这种奖励重试的策略是ReZero与现有方法的本质区别。

关键设计:ReZero的关键设计包括:1) 奖励函数的设计,需要平衡重试带来的收益和成本;2) 最大重试次数的设置,避免LLM陷入无限循环;3) 查询生成策略,可以使用不同的prompting技术或微调方法来提高查询的多样性。具体的奖励函数和参数设置可能需要根据具体的任务和数据集进行调整。

🖼️ 关键图片

fig_0

📊 实验亮点

ReZero在实验中表现出显著的性能提升,达到了46.88%的准确率,相比于25%的基线,提升幅度超过80%。这表明ReZero能够有效地激励LLM进行重试,从而提高检索的成功率。实验结果验证了ReZero在增强LLM检索能力方面的有效性。

🎯 应用场景

ReZero可应用于各种需要信息检索的场景,例如问答系统、知识库查询、智能助手等。通过提高LLM的检索能力,ReZero可以帮助用户更准确、更全面地获取所需信息,提升用户体验。未来,ReZero有望应用于更复杂的知识密集型任务,例如科学研究、法律咨询等。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) improves Large Language Model (LLM) performance on knowledge-intensive tasks but depends heavily on initial search query quality. Current methods, often using Reinforcement Learning (RL), typically focus on query formulation or reasoning over results, without explicitly encouraging persistence after a failed search. We introduce ReZero (Retry-Zero), a novel RL framework that directly rewards the act of retrying a search query following an initial unsuccessful attempt. This incentivizes the LLM to explore alternative queries rather than prematurely halting. ReZero demonstrates significant improvement, achieving 46.88% accuracy compared to a 25% baseline. By rewarding persistence, ReZero enhances LLM robustness in complex information-seeking scenarios where initial queries may prove insufficient.