Auto-GDA: Automatic Domain Adaptation for Efficient Grounding Verification in Retrieval-Augmented Generation

📄 arXiv: 2410.03461v2 📥 PDF

作者: Tobias Leemann, Periklis Petridis, Giuseppe Vietri, Dionysis Manousakas, Aaron Roth, Sergul Aydore

分类: cs.CL, cs.LG

发布日期: 2024-10-04 (更新: 2025-03-14)


💡 一句话要点

提出Auto-GDA,通过自动领域自适应提升RAG中 grounding verification 的效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 领域自适应 自然语言推理 grounding verification 合成数据生成

📋 核心要点

  1. 现有RAG系统中,LLM的幻觉问题依然存在,且利用LLM进行grounding verification成本高昂,而现有NLI模型在RAG场景下表现不佳。
  2. Auto-GDA通过合成数据生成实现无监督领域自适应,迭代优化生成样本质量,无需人工干预,从而提升NLI模型在特定RAG场景下的性能。
  3. 实验表明,使用Auto-GDA微调的模型性能超越教师模型,达到大型LLM的水平,同时计算成本显著降低,仅为LLM的10%。

📝 摘要(中文)

检索增强生成(RAG)已被证明可以提高大型语言模型(LLM)输出的事实性,但LLM仍然存在幻觉问题,会生成不正确或不相关的信息。一种常见的检测策略是再次提示LLM,以评估其响应是否基于检索到的证据,但这种方法成本很高。另一种方法是使用轻量级的自然语言推理(NLI)模型,以便在推理时进行有效的grounding verification。虽然现有的预训练NLI模型提供了一些潜在的解决方案,但它们在实际RAG输入上的性能仍然不如大型模型。RAG输入比大多数用于训练NLI模型的数据集更复杂,并且具有特定于底层知识库的特征,需要NLI模型适应特定的目标领域。此外,目标领域中缺乏标记实例使得有监督的领域自适应(例如,通过微调)变得不可行。为了解决这些挑战,我们引入了自动生成领域自适应(Auto-GDA)。我们的框架通过合成数据生成实现无监督领域自适应。与以往依赖手工过滤和增强策略的方法不同,Auto-GDA采用迭代过程,利用效率较低的教师模型的弱标签和离散优化来选择最有希望的增强样本,从而不断提高生成样本的质量。实验结果表明了我们方法的有效性,使用Auto-GDA在合成数据上微调的模型通常超过教师模型的性能,并达到LLM的性能水平,而计算成本仅为其10%。

🔬 方法详解

问题定义:论文旨在解决RAG系统中,利用轻量级NLI模型进行grounding verification时,由于领域差异导致性能不佳的问题。现有方法要么依赖昂贵的LLM进行验证,要么使用预训练NLI模型但效果欠佳,缺乏有效的领域自适应方法,尤其是在目标领域缺乏标注数据的情况下。

核心思路:论文的核心思路是通过自动生成合成数据,并利用这些数据对NLI模型进行无监督领域自适应。通过迭代优化生成数据的质量,使得NLI模型能够更好地适应RAG场景下的特定知识库和数据分布。

技术框架:Auto-GDA框架包含以下主要阶段:1) 合成数据生成:利用生成模型(如LLM)生成初始的合成数据。2) 弱标签生成:使用一个或多个“教师”模型(通常是较大的LLM或性能较好的NLI模型)对合成数据进行标注,生成弱标签。3) 数据选择与增强:通过离散优化方法,选择最有价值的合成数据样本,并进行数据增强。4) 模型微调:使用选择和增强后的合成数据对NLI模型进行微调。5) 迭代优化:重复上述步骤,不断改进合成数据的质量和NLI模型的性能。

关键创新:Auto-GDA的关键创新在于其自动化的迭代优化过程,能够持续提升合成数据的质量,而无需人工干预。与传统的手工过滤和增强策略相比,Auto-GDA能够更有效地利用弱标签信息,并选择最有价值的样本进行训练。此外,离散优化方法的引入,使得数据选择过程更加高效和准确。

关键设计:Auto-GDA的关键设计包括:1) 弱标签生成策略:选择合适的教师模型,并设计有效的prompting策略,以生成高质量的弱标签。2) 离散优化方法:使用例如Gumbel-Softmax等技术,对数据样本进行离散选择,并优化选择策略。3) 数据增强策略:采用多种数据增强方法,如回译、同义词替换等,以增加数据的多样性。4) 迭代优化策略:设计合适的迭代停止条件,并调整迭代过程中的参数,以获得最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用Auto-GDA微调的NLI模型在grounding verification任务上取得了显著的性能提升,通常超过了教师模型的性能。更重要的是,该方法能够达到大型LLM的性能水平,而计算成本仅为其10%。这表明Auto-GDA是一种高效且有效的领域自适应方法,能够显著降低RAG系统的计算成本。

🎯 应用场景

Auto-GDA可应用于各种RAG系统,尤其是在需要高效且准确的grounding verification的场景下。例如,在问答系统、知识库检索、信息抽取等领域,可以利用Auto-GDA提升NLI模型的性能,从而提高RAG系统的可靠性和准确性。该方法还可以扩展到其他领域自适应任务,例如文本分类、情感分析等。

📄 摘要(原文)

While retrieval-augmented generation (RAG) has been shown to enhance factuality of large language model (LLM) outputs, LLMs still suffer from hallucination, generating incorrect or irrelevant information. A common detection strategy involves prompting the LLM again to assess whether its response is grounded in the retrieved evidence, but this approach is costly. Alternatively, lightweight natural language inference (NLI) models for efficient grounding verification can be used at inference time. While existing pre-trained NLI models offer potential solutions, their performance remains subpar compared to larger models on realistic RAG inputs. RAG inputs are more complex than most datasets used for training NLI models and have characteristics specific to the underlying knowledge base, requiring adaptation of the NLI models to a specific target domain. Additionally, the lack of labeled instances in the target domain makes supervised domain adaptation, e.g., through fine-tuning, infeasible. To address these challenges, we introduce Automatic Generative Domain Adaptation (Auto-GDA). Our framework enables unsupervised domain adaptation through synthetic data generation. Unlike previous methods that rely on handcrafted filtering and augmentation strategies, Auto-GDA employs an iterative process to continuously improve the quality of generated samples using weak labels from less efficient teacher models and discrete optimization to select the most promising augmented samples. Experimental results demonstrate the effectiveness of our approach, with models fine-tuned on synthetic data using Auto-GDA often surpassing the performance of the teacher model and reaching the performance level of LLMs at 10% of their computational cost.