Entropy-Based Decoding for Retrieval-Augmented Large Language Models

📄 arXiv: 2406.17519v2 📥 PDF

作者: Zexuan Qiu, Zijing Ou, Bin Wu, Jingjing Li, Aiwei Liu, Irwin King

分类: cs.CL

发布日期: 2024-06-25 (更新: 2025-02-17)

备注: NAACL 2025 Main Conference


💡 一句话要点

提出基于熵的解码方法,解决检索增强大语言模型中的干扰问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强 大语言模型 熵解码 对比学习 开放域问答

📋 核心要点

  1. 检索增强的LLM易受噪声干扰,影响生成回复的准确性。
  2. 提出基于熵的解码方法,优先选择低熵的外部知识,抑制高熵的内部知识。
  3. 实验表明,该方法在开放域问答任务中表现优异,提升了性能。

📝 摘要(中文)

本文提出了一种新颖的、无需训练的解码方法,该方法基于熵的考量,旨在缓解检索增强大语言模型(LLM)中存在的干扰问题。检索增强LLM虽然在提高生成回复的事实准确性方面表现出色,但仍然容易受到来自外部和内部知识源的噪声的负面影响。我们的方法利用基于熵的文档并行集成解码,优先考虑来自检索文档的低熵分布,从而增强上下文相关信息的提取。此外,它还结合了一种对比解码机制,将获得的低熵集成分布与模型内部知识产生的高熵分布进行对比,从而确保更加重视可靠的外部信息。在开放域问答数据集上的大量实验证明了我们方法的优越性。

🔬 方法详解

问题定义:检索增强的大语言模型(LLM)在生成回复时,容易受到来自外部检索文档和模型自身内部知识的噪声干扰,导致生成不准确或不相关的回复。现有的方法难以有效区分和利用高质量的外部知识,从而影响了模型的性能。

核心思路:本文的核心思路是利用熵来衡量知识源的不确定性,并优先选择低熵的、更可靠的外部知识。通过降低噪声知识源的影响,提高模型对相关信息的提取能力。具体来说,就是优先考虑来自检索文档的低熵分布,并抑制模型内部知识产生的高熵分布。

技术框架:该方法主要包含两个阶段:1) 基于熵的文档并行集成解码:对检索到的多个文档进行并行解码,并根据每个文档的熵值进行加权,得到一个低熵的集成分布。2) 对比解码:将低熵的集成分布与模型内部知识产生的高熵分布进行对比,通过对比学习的方式,增强模型对外部知识的依赖,抑制内部知识的干扰。

关键创新:该方法的主要创新在于提出了一种基于熵的解码策略,无需额外的训练,即可有效地缓解检索增强LLM中的干扰问题。与传统的解码方法相比,该方法能够更好地利用外部知识,并抑制内部知识的干扰,从而提高生成回复的准确性和相关性。

关键设计:在文档并行集成解码阶段,使用softmax函数将每个文档的熵值转换为权重,并对每个文档的概率分布进行加权平均。在对比解码阶段,使用KL散度作为损失函数,鼓励模型生成的分布接近低熵的集成分布,远离高熵的内部知识分布。具体公式细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个开放域问答数据集上取得了显著的性能提升。例如,在某数据集上,该方法相比于基线模型提升了X个百分点(具体数据请查阅原文),证明了其有效性。此外,消融实验也验证了熵的有效性以及对比解码机制的必要性。

🎯 应用场景

该研究成果可广泛应用于各种需要检索增强的大语言模型应用场景,例如开放域问答、知识图谱推理、对话系统等。通过提高生成回复的准确性和相关性,可以提升用户体验,并为相关应用带来更大的实际价值。未来,该方法可以进一步扩展到其他模态的数据,例如图像和音频,从而实现更强大的多模态检索增强。

📄 摘要(原文)

Augmenting Large Language Models (LLMs) with retrieved external knowledge has proven effective for improving the factual accuracy of generated responses. Despite their success, retrieval-augmented LLMs still face the distractibility issue, where the generated responses are negatively influenced by noise from both external and internal knowledge sources. In this paper, we introduce a novel, training-free decoding method guided by entropy considerations to mitigate this issue. Our approach utilizes entropy-based document-parallel ensemble decoding to prioritize low-entropy distributions from retrieved documents, thereby enhancing the extraction of relevant information of context. Additionally, it incorporates a contrastive decoding mechanism that contrasts the obtained low-entropy ensemble distribution with the high-entropy distribution derived from the model's internal knowledge across layers, which ensures a greater emphasis on reliable external information. Extensive experiments on open-domain question answering datasets demonstrate the superiority of our method.