Alleviating LLM-based Generative Retrieval Hallucination in Alipay Search

📄 arXiv: 2503.21098v3 📥 PDF

作者: Yedan Shen, Kaixin Wu, Yuechen Ding, Jingyuan Wen, Hong Liu, Mingjie Zhong, Zhouhan Lin, Jia Xu, Linjian Mo

分类: cs.IR, cs.AI

发布日期: 2025-03-27 (更新: 2025-05-13)

备注: Accepted by SIGIR 2025

期刊: SIGIR 2025

DOI: 10.1145/3726302.3731951


💡 一句话要点

提出一种缓解LLM生成式检索幻觉的框架,提升支付宝搜索质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式检索 大型语言模型 知识蒸馏 检索幻觉 决策代理

📋 核心要点

  1. 基于LLM的生成式检索(GR)存在幻觉问题,生成与查询无关的文档,影响实际应用的可信度。
  2. 该框架通过知识蒸馏推理和决策代理,提升检索精度,缓解生成式检索中的幻觉问题。
  3. 在支付宝的基金搜索和保险搜索上的实验表明,该框架能有效提高搜索质量和转化率。

📝 摘要(中文)

本文提出了一种优化的生成式检索(GR)框架,旨在缓解基于大型语言模型(LLM)的GR中的幻觉问题。该框架集成了知识蒸馏推理和决策代理,以提高检索精度。具体而言,我们利用LLM评估和推理GR检索到的查询-文档(q-d)对,并将推理数据作为迁移知识蒸馏到GR模型中。此外,我们使用决策代理作为后处理步骤,通过检索模型扩展GR检索到的文档,并从多个角度选择最相关的文档作为最终的生成式检索结果。在真实数据集上的大量离线实验以及在支付宝的基金搜索和保险搜索上的在线A/B测试表明,我们的框架在提高搜索质量和转化率方面具有优越性和有效性。

🔬 方法详解

问题定义:论文旨在解决基于LLM的生成式检索(GR)中存在的幻觉问题,即生成与用户查询无关的文档。现有方法难以保证检索结果的准确性和相关性,严重影响了用户体验和实际应用的可信度。

核心思路:论文的核心思路是利用LLM的推理能力来评估和纠正GR模型产生的错误。通过知识蒸馏,将LLM的推理知识迁移到GR模型中,提高其生成相关文档的能力。同时,引入决策代理进行后处理,进一步筛选和优化检索结果。

技术框架:该框架包含两个主要模块:知识蒸馏推理和决策代理。首先,使用LLM对GR模型检索到的查询-文档对进行评估和推理,生成推理数据。然后,将这些推理数据作为知识,通过知识蒸馏训练GR模型。最后,使用决策代理对GR模型检索到的文档进行后处理,通过检索模型扩展文档,并选择最相关的文档作为最终结果。

关键创新:该论文的关键创新在于将LLM的推理能力引入到生成式检索中,通过知识蒸馏和决策代理,有效地缓解了检索幻觉问题。与传统的检索方法相比,该方法能够更好地理解用户查询的意图,并生成更准确和相关的文档。

关键设计:在知识蒸馏阶段,使用了LLM对查询-文档对进行评估,并生成相应的标签。这些标签用于训练GR模型,使其能够学习到LLM的推理知识。在决策代理阶段,使用了检索模型来扩展GR模型检索到的文档,并使用排序算法选择最相关的文档。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知内容。

📊 实验亮点

该框架在真实数据集上的离线实验和支付宝的在线A/B测试中均表现出色。在线A/B测试结果表明,该框架能够显著提高搜索质量和转化率,证明了其在实际应用中的有效性。具体的性能数据和提升幅度在论文中未详细给出,属于未知内容。

🎯 应用场景

该研究成果可应用于各种需要高质量信息检索的场景,例如电商搜索、知识库问答、智能客服等。特别是在对准确性要求较高的金融领域(如支付宝的基金搜索和保险搜索),该方法能够显著提升搜索质量和用户体验,具有重要的实际应用价值和商业潜力。

📄 摘要(原文)

Generative retrieval (GR) has revolutionized document retrieval with the advent of large language models (LLMs), and LLM-based GR is gradually being adopted by the industry. Despite its remarkable advantages and potential, LLM-based GR suffers from hallucination and generates documents that are irrelevant to the query in some instances, severely challenging its credibility in practical applications. We thereby propose an optimized GR framework designed to alleviate retrieval hallucination, which integrates knowledge distillation reasoning in model training and incorporate decision agent to further improve retrieval precision. Specifically, we employ LLMs to assess and reason GR retrieved query-document (q-d) pairs, and then distill the reasoning data as transferred knowledge to the GR model. Moreover, we utilize a decision agent as post-processing to extend the GR retrieved documents through retrieval model and select the most relevant ones from multi perspectives as the final generative retrieval result. Extensive offline experiments on real-world datasets and online A/B tests on Fund Search and Insurance Search in Alipay demonstrate our framework's superiority and effectiveness in improving search quality and conversion gains.