IterKey: Iterative Keyword Generation with LLMs for Enhanced Retrieval Augmented Generation

📄 arXiv: 2505.08450v2 📥 PDF

作者: Kazuki Hayashi, Hidetaka Kamigaito, Shinya Kouda, Taro Watanabe

分类: cs.CL

发布日期: 2025-05-13 (更新: 2025-07-30)


💡 一句话要点

IterKey:利用LLM迭代生成关键词,增强检索增强生成效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大型语言模型 关键词生成 迭代优化 稀疏检索

📋 核心要点

  1. 现有RAG方法在准确性和可解释性之间存在权衡,稠密检索准确但缺乏透明性,稀疏检索透明但难以捕捉完整查询意图。
  2. IterKey利用LLM迭代生成关键词,通过稀疏检索增强RAG,在保证准确性的同时,提升了模型的可解释性。
  3. 实验表明,IterKey在多个QA任务中,相比于传统BM25方法,准确率提升了5%到20%,性能与稠密检索方法相当。

📝 摘要(中文)

检索增强生成(RAG)通过整合外部文档来补充大型语言模型(LLM)的上下文知识。然而,实际应用不仅需要准确性,还需要可解释性。虽然稠密检索方法提供高准确性,但缺乏可解释性;相反,稀疏检索方法提供透明性,但由于依赖关键词匹配,通常无法捕捉查询的全部意图。为了解决这些问题,我们引入了IterKey,这是一个LLM驱动的迭代关键词生成框架,通过稀疏检索增强RAG。IterKey由三个LLM驱动的阶段组成:生成用于检索的关键词,基于检索到的文档生成答案,以及验证答案。如果验证失败,该过程将使用改进的关键词迭代重复。在四个QA任务中,实验结果表明,IterKey比基于BM25的RAG和简单基线提高了5%到20%的准确率。其性能与基于稠密检索的RAG和使用稠密模型的先前迭代查询细化方法相当。总而言之,IterKey是一种新颖的基于BM25的方法,利用LLM迭代地细化RAG,有效地平衡了准确性和可解释性。

🔬 方法详解

问题定义:现有RAG方法在实际应用中面临准确性和可解释性之间的挑战。稠密检索方法(如基于向量相似度的方法)虽然准确,但缺乏透明度,难以理解检索结果的原因。稀疏检索方法(如BM25)虽然可解释,但依赖关键词匹配,容易丢失查询的深层语义信息,导致检索效果不佳。因此,如何平衡RAG的准确性和可解释性是一个亟待解决的问题。

核心思路:IterKey的核心思路是利用LLM的强大生成能力,迭代地生成和优化关键词,从而提升稀疏检索的效果。通过LLM生成更全面、更准确的关键词,弥补传统关键词匹配的不足。同时,通过迭代的方式,不断修正关键词,提高检索的准确性。这种方法旨在结合LLM的语义理解能力和稀疏检索的可解释性,实现准确性和可解释性的平衡。

技术框架:IterKey包含三个主要阶段,全部由LLM驱动:1) 关键词生成:LLM根据原始查询生成一组初始关键词,用于检索相关文档。2) 答案生成:基于检索到的文档,LLM生成答案。3) 答案验证:LLM对生成的答案进行验证,判断其是否合理和准确。如果验证失败,则返回第一步,LLM根据验证结果对关键词进行优化,重新进行检索和答案生成,直到答案通过验证或达到最大迭代次数。

关键创新:IterKey的关键创新在于利用LLM进行迭代的关键词生成和答案验证。与传统的静态关键词检索方法不同,IterKey能够根据检索结果动态调整关键词,从而更好地捕捉查询的意图。此外,答案验证机制能够有效地过滤掉不准确的答案,提高整体的准确性。这种迭代式的框架能够充分利用LLM的语义理解和生成能力,提升稀疏检索的效果。

关键设计:IterKey的关键设计包括:1) LLM的选择:论文中使用了特定的LLM(具体型号未知)作为核心组件,LLM的性能直接影响关键词生成、答案生成和答案验证的效果。2) 迭代次数:需要设置最大迭代次数,以防止无限循环。3) 验证策略:答案验证的策略至关重要,需要设计合适的prompt和判断标准,以确保验证的准确性。4) Prompt设计:针对关键词生成、答案生成和答案验证,需要精心设计prompt,引导LLM生成高质量的关键词和答案。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,IterKey在四个QA任务中,相比于基于BM25的RAG方法,准确率提升了5%到20%。同时,IterKey的性能与基于稠密检索的RAG方法相当,甚至在某些任务上略有优势。这表明IterKey能够在保证准确性的同时,提供更好的可解释性,实现了准确性和可解释性的平衡。

🎯 应用场景

IterKey可应用于各种需要可解释性和准确性的RAG场景,例如:智能客服、问答系统、法律咨询、医疗诊断等。通过提供可解释的检索结果,IterKey能够帮助用户理解模型的推理过程,提高用户对模型的信任度。此外,IterKey还可以用于知识图谱构建、信息抽取等任务,提升知识获取的效率和质量。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) has emerged as a way to complement the in-context knowledge of Large Language Models (LLMs) by integrating external documents. However, real-world applications demand not only accuracy but also interpretability. While dense retrieval methods provide high accuracy, they lack interpretability; conversely, sparse retrieval methods offer transparency but often fail to capture the full intent of queries due to their reliance on keyword matching. To address these issues, we introduce IterKey, an LLM-driven iterative keyword generation framework that enhances RAG via sparse retrieval. IterKey consists of three LLM-driven stages: generating keywords for retrieval, generating answers based on retrieved documents, and validating the answers. If validation fails, the process iteratively repeats with refined keywords. Across four QA tasks, experimental results show that IterKey achieves 5% to 20% accuracy improvements over BM25-based RAG and simple baselines. Its performance is comparable to dense retrieval-based RAG and prior iterative query refinement methods using dense models. In summary, IterKey is a novel BM25-based approach leveraging LLMs to iteratively refine RAG, effectively balancing accuracy with interpretability.