Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors
作者: Yuefeng Peng, Junda Wang, Hong Yu, Amir Houmansadr
分类: cs.CR, cs.CL
发布日期: 2024-11-03 (更新: 2025-03-30)
💡 一句话要点
通过后门攻击检索增强生成系统实现数据提取
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 数据提取攻击 后门攻击 大型语言模型 供应链安全
📋 核心要点
- 现有基于提示注入的数据提取攻击依赖LLM的指令遵循能力,对指令不敏感的模型防御性较强。
- 通过在LLM微调阶段注入少量中毒数据,构建后门,攻击者可利用特定触发器从RAG系统中提取数据。
- 实验表明,仅需5%的中毒数据,即可在Gemma-2B-IT上实现高成功率的逐字和释义文档提取。
📝 摘要(中文)
尽管大型语言模型(LLMs)取得了显著进展,但在缺乏领域特定或最新知识时,仍然难以提供准确的答案。检索增强生成(RAG)通过整合外部知识库来解决这一限制,但也引入了新的攻击面。本文研究了针对RAG知识数据库的数据提取攻击。我们表明,以往基于提示注入的提取攻击主要依赖于LLM的指令遵循能力。因此,它们在对恶意提示不太敏感的模型上会失败——例如,我们的实验表明,最先进的攻击在Gemma-2B-IT上的成功率接近于零。此外,即使对于可以遵循这些指令的模型,我们也发现微调可以显著降低攻击性能。为了进一步揭示漏洞,我们提出对RAG进行后门攻击,在微调阶段注入少量中毒数据,从而在LLM中创建一个后门。当这个受损的LLM集成到RAG系统中时,攻击者可以利用提示中的特定触发器来操纵LLM,从而泄露检索数据库中的文档。通过精心设计中毒数据,我们实现了逐字和释义的文档提取。例如,在Gemma-2B-IT上,我们表明,仅使用5%的中毒数据,我们的方法在四个数据集上的逐字提取平均成功率为94.1%(ROUGE-L得分:82.1),释义提取的平均成功率为63.6%(平均ROUGE得分:66.4)。这些结果强调了在部署RAG系统时与供应链相关的隐私风险。
🔬 方法详解
问题定义:论文旨在解决检索增强生成(RAG)系统中,知识库面临的数据提取攻击问题。现有基于提示注入的攻击方法,在面对对指令遵循能力较弱的LLM时,效果不佳,且微调可以降低攻击性能。因此,需要一种更隐蔽、更有效的数据提取攻击方法。
核心思路:论文的核心思路是通过后门攻击,在LLM的微调阶段注入少量精心设计的中毒数据,从而在LLM中植入后门。当LLM集成到RAG系统中时,攻击者可以通过特定的触发提示,激活后门,操纵LLM泄露知识库中的文档。这种方法不依赖于LLM的指令遵循能力,而是利用了LLM在训练过程中学习到的模式。
技术框架:该攻击框架主要包含以下几个阶段:1) 数据中毒:在LLM的微调数据集中,注入少量中毒数据,这些数据包含特定的触发词和目标文档。2) LLM微调:使用包含中毒数据的数据集对LLM进行微调,从而在LLM中植入后门。3) RAG集成:将微调后的LLM集成到RAG系统中,作为生成模型。4) 攻击触发:攻击者构造包含触发词的提示,发送给RAG系统。5) 数据提取:LLM接收到包含触发词的提示后,激活后门,从知识库中提取目标文档,并将其包含在生成结果中。
关键创新:该论文的关键创新在于提出了基于后门攻击的RAG数据提取方法。与传统的提示注入攻击相比,该方法更加隐蔽,且对LLM的指令遵循能力要求较低。通过精心设计中毒数据,可以实现逐字和释义两种形式的文档提取。
关键设计:中毒数据的设计至关重要。论文中,中毒数据包含触发词、目标文档和上下文信息。触发词用于激活后门,目标文档是攻击者希望提取的内容,上下文信息用于迷惑LLM,使其认为中毒数据是正常的训练数据。论文还研究了不同中毒比例对攻击效果的影响。实验表明,即使只有5%的中毒数据,也能取得显著的攻击效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,仅使用5%的中毒数据,该方法在Gemma-2B-IT模型上实现了平均94.1%的逐字提取成功率(ROUGE-L得分:82.1)和63.6%的释义提取成功率(平均ROUGE得分:66.4)。这些结果表明,即使是相对较小的中毒比例,也可能对RAG系统造成严重的隐私威胁。
🎯 应用场景
该研究揭示了RAG系统在供应链安全方面的潜在风险,强调了在部署RAG系统时,对LLM进行严格的安全评估和监控的重要性。研究成果可应用于开发更安全的RAG系统,例如,通过检测和过滤中毒数据,或通过设计更鲁棒的LLM,来防御后门攻击。此外,该研究也为其他基于LLM的系统的安全研究提供了借鉴。
📄 摘要(原文)
Despite significant advancements, large language models (LLMs) still struggle with providing accurate answers when lacking domain-specific or up-to-date knowledge. Retrieval-Augmented Generation (RAG) addresses this limitation by incorporating external knowledge bases, but it also introduces new attack surfaces. In this paper, we investigate data extraction attacks targeting RAG's knowledge databases. We show that previous prompt injection-based extraction attacks largely rely on the instruction-following capabilities of LLMs. As a result, they fail on models that are less responsive to such malicious prompts -- for example, our experiments show that state-of-the-art attacks achieve near-zero success on Gemma-2B-IT. Moreover, even for models that can follow these instructions, we found fine-tuning may significantly reduce attack performance. To further reveal the vulnerability, we propose to backdoor RAG, where a small portion of poisoned data is injected during the fine-tuning phase to create a backdoor within the LLM. When this compromised LLM is integrated into a RAG system, attackers can exploit specific triggers in prompts to manipulate the LLM to leak documents from the retrieval database. By carefully designing the poisoned data, we achieve both verbatim and paraphrased document extraction. For example, on Gemma-2B-IT, we show that with only 5\% poisoned data, our method achieves an average success rate of 94.1\% for verbatim extraction (ROUGE-L score: 82.1) and 63.6\% for paraphrased extraction (average ROUGE score: 66.4) across four datasets. These results underscore the privacy risks associated with the supply chain when deploying RAG systems.