GenCRF: Generative Clustering and Reformulation Framework for Enhanced Intent-Driven Information Retrieval

📄 arXiv: 2409.10909v1 📥 PDF

作者: Wonduk Seo, Haojie Zhang, Yueyang Zhang, Changhao Zhang, Songyao Duan, Lixin Su, Daiting Shi, Jiashu Zhao, Dawei Yin

分类: cs.IR, cs.AI, cs.CL

发布日期: 2024-09-17


💡 一句话要点

GenCRF:用于增强意图驱动信息检索的生成式聚类与重构框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 信息检索 查询重构 大型语言模型 意图识别 聚类算法

📋 核心要点

  1. 现有查询重构方法依赖LLM,但生成的扩展有限且冗余,难以捕捉用户多样化的搜索意图。
  2. GenCRF框架通过生成多个查询并聚类,自适应地捕捉和表示用户查询中的不同意图。
  3. 实验表明,GenCRF在BEIR基准测试中显著优于现有查询重构方法,nDCG@10指标提升高达12%。

📝 摘要(中文)

查询重构是信息检索(IR)中一个众所周知的问题,旨在通过自动修改用户的输入查询来提高单次搜索的成功率。最近的方法利用大型语言模型(LLM)来改进查询重构,但通常生成有限且冗余的扩展,这可能会限制它们在捕获多样化意图方面的有效性。在本文中,我们提出了GenCRF:一个生成式聚类和重构框架,首次在检索阶段基于多个差异化的、良好生成的查询自适应地捕获多样化的意图。GenCRF利用LLM使用定制的提示从初始查询生成可变查询,然后将它们聚类成组,以清晰地表示不同的意图。此外,该框架探索将多样化意图查询与创新的加权聚合策略相结合,以优化检索性能,并关键地集成了一种新颖的查询评估奖励模型(QERM)以通过反馈循环来改进该过程。在BEIR基准上的经验实验表明,GenCRF实现了最先进的性能,在nDCG@10上超过了之前的查询重构SOTA高达12%。这些技术可以适应各种LLM,显著提高检索器的性能并推进信息检索领域。

🔬 方法详解

问题定义:论文旨在解决信息检索中查询重构的问题,现有方法,特别是基于大型语言模型的方法,在生成查询扩展时存在多样性不足和冗余的问题,无法充分捕捉用户潜在的多种搜索意图。这限制了检索系统找到用户真正需要的信息的能力。

核心思路:GenCRF的核心思路是首先利用LLM生成多个不同的查询,然后将这些查询聚类成不同的组,每个组代表一个不同的用户意图。通过这种方式,GenCRF能够更全面地理解用户的搜索需求,并利用这些不同的意图来提高检索性能。

技术框架:GenCRF框架包含以下几个主要模块:1) 查询生成模块:利用LLM和定制的提示,从原始查询生成多个不同的查询变体。2) 查询聚类模块:将生成的查询聚类成不同的组,每个组代表一个不同的用户意图。3) 检索模块:使用每个意图组中的查询进行检索,并使用加权聚合策略将结果合并。4) 查询评估奖励模型(QERM):使用QERM对检索结果进行评估,并根据评估结果调整查询生成和聚类过程,形成反馈循环。

关键创新:GenCRF的关键创新在于:1) 首次提出通过生成和聚类多个查询来捕捉用户多样化意图。2) 引入了查询评估奖励模型(QERM)来优化查询重构过程。3) 提出了创新的加权聚合策略来合并不同意图的检索结果。

关键设计:在查询生成模块中,使用了定制的提示来引导LLM生成多样化的查询。在查询聚类模块中,使用了基于语义相似度的聚类算法。在检索模块中,使用了加权聚合策略,根据每个意图组的重要性来调整其检索结果的权重。QERM的设计目标是评估检索结果的相关性和多样性,并根据评估结果调整LLM的提示和聚类算法的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GenCRF在BEIR基准测试中取得了显著的性能提升,在nDCG@10指标上超过了之前的SOTA方法高达12%。这一结果表明GenCRF能够有效地捕捉用户多样化的搜索意图,并显著提高检索系统的性能。实验结果还表明,GenCRF可以适应不同的LLM,具有良好的通用性。

🎯 应用场景

GenCRF框架可应用于各种信息检索系统,例如搜索引擎、问答系统和推荐系统。通过更准确地理解用户的搜索意图,GenCRF可以显著提高这些系统的检索性能和用户满意度。该研究的成果对于提升信息检索的智能化水平具有重要意义,并有望在实际应用中产生广泛的影响。

📄 摘要(原文)

Query reformulation is a well-known problem in Information Retrieval (IR) aimed at enhancing single search successful completion rate by automatically modifying user's input query. Recent methods leverage Large Language Models (LLMs) to improve query reformulation, but often generate limited and redundant expansions, potentially constraining their effectiveness in capturing diverse intents. In this paper, we propose GenCRF: a Generative Clustering and Reformulation Framework to capture diverse intentions adaptively based on multiple differentiated, well-generated queries in the retrieval phase for the first time. GenCRF leverages LLMs to generate variable queries from the initial query using customized prompts, then clusters them into groups to distinctly represent diverse intents. Furthermore, the framework explores to combine diverse intents query with innovative weighted aggregation strategies to optimize retrieval performance and crucially integrates a novel Query Evaluation Rewarding Model (QERM) to refine the process through feedback loops. Empirical experiments on the BEIR benchmark demonstrate that GenCRF achieves state-of-the-art performance, surpassing previous query reformulation SOTAs by up to 12% on nDCG@10. These techniques can be adapted to various LLMs, significantly boosting retriever performance and advancing the field of Information Retrieval.