Systematic Knowledge Injection into Large Language Models via Diverse Augmentation for Domain-Specific RAG

📄 arXiv: 2502.08356v3 📥 PDF

作者: Kushagra Bhushan, Yatin Nandwani, Dinesh Khandelwal, Sonam Gupta, Gaurav Pandey, Dinesh Raghu, Sachindra Joshi

分类: cs.CL

发布日期: 2025-02-12 (更新: 2025-03-27)

备注: 22 pages, 14 tables, to be published in NAACL 2025


💡 一句话要点

提出基于多样化增强的知识注入方法,提升领域RAG中LLM的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 大型语言模型 知识注入 数据增强 领域特定 微调 上下文增强 知识释义

📋 核心要点

  1. 现有RAG方法在检索失败时易产生幻觉和错误答案,微调LLM虽可注入知识,但缺乏系统增强导致性能不佳。
  2. 论文提出上下文增强和知识释义两种数据增强方法,提升LLM对领域知识的利用能力,并缓解灾难性遗忘。
  3. 实验表明,该方法在token级别召回率上提升高达10%,同时保持了LLM的泛化能力,优于现有技术。

📝 摘要(中文)

检索增强生成(RAG)已成为将领域知识融入大型语言模型(LLM)的主流方法。虽然RAG通过在上下文中加入检索到的领域知识来提高响应的相关性,但检索错误仍然会导致幻觉和不正确的答案。为了从检索器的失败中恢复,通过微调模型来注入领域知识,即使在检索错误的情况下也能生成正确的响应。然而,我们观察到,如果没有系统的知识增强,微调的LLM可能会记住新的信息,但仍然无法提取相关的领域知识,从而导致较差的性能。在这项工作中,我们提出了一个新颖的框架,通过两种方式增强训练数据,从而显著增强微调过程——上下文增强和知识释义。在上下文增强中,我们通过改变检索信息的关联性,为给定的QA对创建多个训练样本,从而教会模型何时忽略以及何时依赖检索到的内容。在知识释义中,我们使用同一问题的多个答案进行微调,使LLM能够更好地内化专业知识。为了减轻由于微调造成的灾难性遗忘,我们向问题添加了一个特定于领域的标识符,并且还利用包含通用QA对的重放缓冲区。实验结果表明,我们的方法优于现有技术,在token级别的召回率上实现了高达10%的相对增益,同时保留了LLM的泛化能力。

🔬 方法详解

问题定义:论文旨在解决领域特定RAG系统中,由于检索器错误导致LLM生成错误答案的问题。现有方法在微调LLM时,缺乏有效的知识增强策略,导致模型难以提取和利用检索到的领域知识,从而影响RAG系统的整体性能。

核心思路:论文的核心思路是通过系统性的数据增强方法,提升LLM在微调过程中对领域知识的吸收和利用能力。具体而言,通过上下文增强使模型学会区分相关和不相关信息,通过知识释义使模型能够理解同一问题的多种表达方式,从而提高模型的鲁棒性和准确性。

技术框架:该框架主要包含以下几个阶段:1) 数据准备:构建包含问题、答案和检索到的上下文信息的训练数据集。2) 上下文增强:针对每个QA对,生成多个上下文不同的训练样本,包括相关、部分相关和不相关的上下文。3) 知识释义:为每个问题生成多个不同的答案,以增强模型对领域知识的理解。4) 微调:使用增强后的数据集对LLM进行微调,同时使用领域特定标识符和重放缓冲区来缓解灾难性遗忘。

关键创新:该论文的关键创新在于提出了上下文增强和知识释义两种数据增强方法,并将其应用于领域特定RAG系统的LLM微调过程中。与传统的微调方法相比,该方法能够更有效地将领域知识注入到LLM中,从而提高RAG系统的性能。

关键设计:在上下文增强中,通过控制检索结果与问题答案的相关度来生成不同的上下文。在知识释义中,可以利用数据增强技术(如回译、同义词替换等)生成多个答案。为了缓解灾难性遗忘,论文使用了一个包含通用QA对的重放缓冲区,并在问题中添加了领域特定标识符。具体的损失函数和网络结构选择取决于所使用的LLM。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,该方法在token级别的召回率上实现了高达10%的相对增益,显著优于现有的微调技术。同时,该方法还能够保持LLM的泛化能力,避免过度拟合特定领域的数据。这些结果表明,该方法是一种有效的领域知识注入方法,可以显著提升领域特定RAG系统的性能。

🎯 应用场景

该研究成果可应用于各种领域特定的RAG系统,例如医疗问答、金融分析、法律咨询等。通过提升LLM对领域知识的利用能力,可以提高这些系统的准确性和可靠性,从而为用户提供更优质的服务。该方法还有助于降低对高质量标注数据的依赖,提高RAG系统的可扩展性。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) has emerged as a prominent method for incorporating domain knowledge into Large Language Models (LLMs). While RAG enhances response relevance by incorporating retrieved domain knowledge in the context, retrieval errors can still lead to hallucinations and incorrect answers. To recover from retriever failures, domain knowledge is injected by fine-tuning the model to generate the correct response, even in the case of retrieval errors. However, we observe that without systematic knowledge augmentation, fine-tuned LLMs may memorize new information but still fail to extract relevant domain knowledge, leading to poor performance. In this work, we present a novel framework that significantly enhances the fine-tuning process by augmenting the training data in two ways -- context augmentation and knowledge paraphrasing. In context augmentation, we create multiple training samples for a given QA pair by varying the relevance of the retrieved information, teaching the model when to ignore and when to rely on retrieved content. In knowledge paraphrasing, we fine-tune with multiple answers to the same question, enabling LLMs to better internalize specialized knowledge. To mitigate catastrophic forgetting due to fine-tuning, we add a domain-specific identifier to a question and also utilize a replay buffer containing general QA pairs. Experimental results demonstrate the efficacy of our method over existing techniques, achieving up to 10\% relative gain in token-level recall while preserving the LLM's generalization capabilities.