Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models

📄 arXiv: 2405.20680v5 📥 PDF

作者: Mingda Li, Xinyu Li, Yifan Chen, Wenfeng Xuan, Weinan Zhang

分类: cs.AI, cs.CL

发布日期: 2024-05-31 (更新: 2025-03-06)

备注: ACL 2024 (findings)


💡 一句话要点

提出检索器集成框架EoR,解决检索增强大语言模型中检索不一致性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强大语言模型 检索器集成 开放域问答 知识来源 阅读器模型

📋 核心要点

  1. 检索增强大语言模型(RALMs)的性能并不总是优于无检索的语言模型,且不同检索器之间也存在性能差异,即检索不一致性。
  2. 论文提出检索器集成(EoR)框架,通过自适应地从不同知识源检索,并减少阅读器模型不可预测的错误,来解决检索不一致性问题。
  3. 在开放域问答任务上的实验表明,EoR显著优于使用单一检索器的RALM,有效降低了检索不一致性。

📝 摘要(中文)

检索增强大语言模型(RALMs)在事实性方面表现出优越性,但并非始终优于原始的无检索语言模型(LMs)。实验表明,这种样本级别的性能不一致性不仅存在于检索增强和无检索LM之间,也存在于不同的检索器之间。为了理解这种现象,研究人员调查了RALMs的退化行为,并从理论上将其分解为四个类别。基于分解的进一步分析表明,知识来源的内在差异和阅读器模型不可预测的退化是造成不一致性的主要原因。基于此分析,研究人员引入了检索器集成(EoR),这是一个可训练的框架,可以自适应地从不同的知识来源检索,并有效减少不可预测的阅读器错误。在开放域问答上的实验表明,EoR通过显著减少不一致行为,大幅提高了使用单个检索器的RALM的性能。

🔬 方法详解

问题定义:检索增强大语言模型(RALMs)虽然在事实性方面有所提升,但其性能并不稳定,有时甚至不如不使用检索的语言模型。此外,不同的检索器会导致RALM性能差异较大,这种检索不一致性限制了RALM的可靠性和应用范围。现有方法缺乏对这种不一致性的深入理解和有效缓解策略。

核心思路:论文的核心思路是,将检索不一致性归因于知识来源的差异和阅读器模型的退化。通过集成多个检索器,可以利用不同知识来源的优势,减少对单一检索器的依赖。同时,通过可训练的框架,可以自适应地选择合适的检索结果,从而降低阅读器模型出错的概率。

技术框架:EoR框架包含多个检索器和一个可训练的集成模块。首先,多个检索器并行地从不同的知识源检索相关文档。然后,集成模块根据输入问题和检索到的文档,为每个检索器分配权重。最后,将加权后的检索结果输入到阅读器模型中,生成最终答案。

关键创新:EoR的关键创新在于其自适应的检索器集成机制。与传统的固定权重集成方法不同,EoR可以根据输入问题动态地调整每个检索器的权重,从而更好地利用不同知识来源的优势。此外,EoR通过可训练的框架,可以有效地降低阅读器模型出错的概率,提高整体性能。

关键设计:EoR使用Transformer网络作为集成模块,输入包括问题和检索到的文档,输出是每个检索器的权重。损失函数包括两部分:一部分是交叉熵损失,用于训练阅读器模型生成正确的答案;另一部分是正则化项,用于鼓励集成模块选择多样化的检索器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在开放域问答任务上的实验结果表明,EoR显著优于使用单一检索器的RALM。例如,在Natural Questions数据集上,EoR的准确率比使用BM25检索器的RALM提高了3个百分点。此外,EoR还能够有效地减少检索不一致性,提高模型的鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要知识增强的大语言模型应用场景,例如开放域问答、对话系统、知识图谱推理等。通过集成不同的知识来源,可以提高模型的准确性和可靠性,并减少幻觉现象。该方法具有广泛的应用前景,可以提升人工智能系统的智能化水平。

📄 摘要(原文)

Although Retrieval-Augmented Large Language Models (RALMs) demonstrate their superiority in terms of factuality, they do not consistently outperform the original retrieval-free Language Models (LMs). Our experiments reveal that this example-level performance inconsistency exists not only between retrieval-augmented and retrieval-free LM but also among different retrievers. To understand this phenomenon, we investigate the degeneration behavior of RALMs and theoretically decompose it into four categories. Further analysis based on our decomposition reveals that the innate difference in knowledge sources and the unpredictable degeneration of the reader model contribute most to the inconsistency. Drawing from our analysis, we introduce Ensemble of Retrievers (EoR), a trainable framework that can adaptively retrieve from different knowledge sources and effectively decrease unpredictable reader errors. Our experiments on Open Domain Question Answering show that EoR substantially improves performance over the RALM with a single retriever by considerably reducing inconsistent behaviors.