Supportiveness-based Knowledge Rewriting for Retrieval-augmented Language Modeling

📄 arXiv: 2406.08116v2 📥 PDF

作者: Zile Qiao, Wei Ye, Yong Jiang, Tong Mo, Pengjun Xie, Weiping Li, Fei Huang, Shikun Zhang

分类: cs.CL, cs.AI

发布日期: 2024-06-12 (更新: 2024-10-03)


💡 一句话要点

提出基于支持度的知识重写方法SKR,提升检索增强语言模型生成质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 检索增强语言模型 知识重写 支持度评估 直接偏好优化 知识密集型任务

📋 核心要点

  1. 现有检索增强语言模型面临检索知识不可靠的问题,可能引入噪声或误导信息。
  2. 提出基于支持度的知识重写方法,通过评估知识对下游任务的帮助程度来优化重写过程。
  3. 实验表明,SKR在多个知识密集型任务上优于现有方法,甚至超越了GPT-4的重写能力。

📝 摘要(中文)

检索增强语言模型(RALMs)最近在缓解大型语言模型(LLMs)中隐式知识的局限性方面显示出巨大的潜力,例如最新专业知识的更新不及时和长尾知识的不可靠保留。然而,由于外部知识库以及检索器不能保证可靠性,可能导致检索到的知识对LLM生成没有帮助甚至具有误导性。在本文中,我们介绍了一种基于支持度的知识重写方法(SKR),这是一种为LLM生成而优化的鲁棒且可插拔的知识重写器。具体来说,我们引入了“支持度”这一新概念——它表示知识片段有效促进下游任务的程度——通过考虑增强知识对白盒LLM响应文本的困惑度影响。基于知识支持度,我们首先为重写器模型设计了一种训练数据管理策略,有效地识别和过滤掉不良或不相关的重写(例如,具有低支持度分数的重写),以提高数据效率。然后,我们引入直接偏好优化(DPO)算法,使生成的重写与最佳支持度对齐,引导重写器模型总结更好地改善最终响应的增强内容。在六个流行的知识密集型任务和四个LLM上的全面评估表明了SKR的有效性和优越性。SKR仅使用7B参数,就显示出比当前最先进的通用LLM GPT-4更好的知识重写能力。

🔬 方法详解

问题定义:检索增强语言模型(RALMs)依赖外部知识库来增强其知识储备,但检索到的知识可能包含错误、不相关或过时的信息,从而降低生成质量。现有方法缺乏有效过滤和重写这些知识的能力,导致模型性能受限。

核心思路:本文的核心在于引入“支持度”的概念,量化外部知识对下游任务(即语言模型生成)的帮助程度。通过优化知识重写过程,使其生成的知识片段具有更高的支持度,从而提升最终生成质量。这种方法旨在使检索到的知识更准确、更相关,并与语言模型的生成目标更好地对齐。

技术框架:SKR包含以下主要步骤:1) 支持度评估:使用白盒LLM评估增强知识对响应文本困惑度的影响,以此衡量知识的支持度。2) 数据管理:基于支持度分数,过滤掉低质量的重写数据,提高训练数据的有效性。3) 重写模型训练:使用直接偏好优化(DPO)算法,使重写模型生成的知识片段与高支持度对齐。整体流程是先评估知识支持度,然后利用支持度信息优化重写模型,最终提升RALM的生成质量。

关键创新:该论文的关键创新在于提出了“支持度”这一概念,并将其应用于知识重写任务。与传统的知识重写方法不同,SKR直接优化重写后的知识对下游任务的影响,而不是仅仅关注重写本身的质量。这种以任务为导向的优化方法更符合RALM的最终目标。

关键设计:1) 支持度计算:使用困惑度作为支持度的度量,困惑度越低,表示知识对生成越有帮助。2) DPO训练:使用DPO算法训练重写模型,目标是使模型生成具有更高支持度的重写结果。3) 数据过滤:设定支持度阈值,过滤掉低于阈值的重写数据,以提高训练效率和模型性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SKR在六个知识密集型任务和四个LLM上都取得了显著的性能提升。特别值得一提的是,仅使用7B参数的SKR模型,其知识重写能力就超过了GPT-4,证明了该方法的有效性和优越性。具体性能数据在论文中有详细展示。

🎯 应用场景

该研究成果可广泛应用于需要检索增强的语言模型应用中,例如问答系统、对话生成、知识图谱推理等。通过提升检索知识的质量和相关性,可以显著提高这些应用的性能和用户体验。未来,该方法可以进一步扩展到其他类型的知识源和任务中。

📄 摘要(原文)

Retrieval-augmented language models (RALMs) have recently shown great potential in mitigating the limitations of implicit knowledge in LLMs, such as untimely updating of the latest expertise and unreliable retention of long-tail knowledge. However, since the external knowledge base, as well as the retriever, can not guarantee reliability, potentially leading to the knowledge retrieved not being helpful or even misleading for LLM generation. In this paper, we introduce Supportiveness-based Knowledge Rewriting (SKR), a robust and pluggable knowledge rewriter inherently optimized for LLM generation. Specifically, we introduce the novel concept of "supportiveness"--which represents how effectively a knowledge piece facilitates downstream tasks--by considering the perplexity impact of augmented knowledge on the response text of a white-box LLM. Based on knowledge supportiveness, we first design a training data curation strategy for our rewriter model, effectively identifying and filtering out poor or irrelevant rewrites (e.g., with low supportiveness scores) to improve data efficacy. We then introduce the direct preference optimization (DPO) algorithm to align the generated rewrites to optimal supportiveness, guiding the rewriter model to summarize augmented content that better improves the final response. Comprehensive evaluations across six popular knowledge-intensive tasks and four LLMs have demonstrated the effectiveness and superiority of SKR. With only 7B parameters, SKR has shown better knowledge rewriting capability over GPT-4, the current state-of-the-art general-purpose LLM.