Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of Large Language Models
作者: Cody Clop, Yannick Teglia
分类: cs.CR, cs.LG
发布日期: 2024-10-18
备注: 12 pages, 5 figures
💡 一句话要点
提出针对RAG中检索器的后门攻击,提升Prompt注入攻击成功率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 RAG Prompt注入攻击 后门攻击 语料库投毒
📋 核心要点
- RAG系统易受Prompt注入攻击,现有方法主要关注信息污染,忽略了更广泛的恶意行为。
- 提出一种针对RAG检索器的后门攻击,通过投毒数据微调检索器,实现更高的攻击成功率。
- 实验表明,相比语料库投毒,后门攻击需要更复杂的设置,但能显著提升攻击成功率。
📝 摘要(中文)
大型语言模型(LLMs)在生成连贯文本方面表现出卓越的能力,但仍受限于其训练数据的静态性。检索增强生成(RAG)通过将LLMs与最新的信息检索相结合来解决这个问题,但也扩大了系统的攻击面。本文研究了针对RAG的Prompt注入攻击,重点关注超出错误信息的恶意目标,例如插入有害链接、推广未经授权的服务以及发起拒绝服务行为。我们在现有的语料库投毒技术的基础上,提出了一种新颖的后门攻击,旨在攻击密集检索器组件的微调过程。我们的实验表明,通过将少量受损文档注入到检索器语料库中,语料库投毒可以实现显著的攻击成功率。相比之下,后门攻击表现出更高的成功率,但需要更复杂的设置,因为受害者必须使用攻击者投毒的数据集来微调检索器。
🔬 方法详解
问题定义:本文旨在解决检索增强生成(RAG)系统中,检索器组件易受Prompt注入攻击的问题。现有方法主要关注通过语料库投毒进行信息污染,但忽略了更广泛的恶意目标,例如插入恶意链接、推广未授权服务和发起拒绝服务攻击。此外,现有语料库投毒方法的攻击成功率可能不够高,需要注入大量受损文档。
核心思路:本文的核心思路是通过后门攻击来控制RAG系统中的检索器。具体来说,攻击者通过投毒用于微调检索器的数据集,在检索器中植入后门。当用户输入包含特定触发词的Prompt时,被植入后门的检索器会优先检索攻击者预先设定的恶意文档,从而实现Prompt注入攻击。
技术框架:该攻击框架主要包含以下几个阶段:1) 攻击者构建包含恶意内容和触发词的投毒数据集;2) 受害者使用该投毒数据集对检索器进行微调,从而在检索器中植入后门;3) 用户向RAG系统输入包含触发词的Prompt;4) 被植入后门的检索器优先检索攻击者预设的恶意文档;5) LLM基于恶意文档生成包含恶意内容的回复,完成Prompt注入攻击。
关键创新:本文的关键创新在于提出了一种针对RAG系统中检索器的后门攻击方法。与传统的语料库投毒方法相比,该方法通过微调过程直接操纵检索器的行为,从而实现更高的攻击成功率。此外,该方法允许攻击者控制检索器检索的特定文档,从而实现更精确的攻击目标。
关键设计:攻击者需要精心设计投毒数据集,包括选择合适的触发词、构造包含恶意内容的文档,以及控制投毒比例。触发词的选择需要考虑其在正常语料库中的频率,以避免引起注意。恶意文档的内容需要与攻击目标相关,例如包含恶意链接或推广未授权服务。投毒比例需要控制在一定范围内,以避免影响检索器的整体性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,相比于传统的语料库投毒方法,本文提出的后门攻击方法能够显著提高Prompt注入攻击的成功率。具体而言,在相同的投毒比例下,后门攻击的成功率远高于语料库投毒。虽然后门攻击需要受害者使用攻击者投毒的数据集进行微调,但其更高的攻击成功率使其成为一种更具威胁性的攻击方式。
🎯 应用场景
该研究成果可应用于评估和提升RAG系统的安全性,尤其是在涉及敏感信息或高风险决策的场景中。通过了解后门攻击的原理和影响,开发者可以采取相应的防御措施,例如数据清洗、模型安全训练和输入验证,从而提高RAG系统的鲁棒性和可靠性。此外,该研究也为开发更安全的检索器微调方法提供了思路。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated remarkable capabilities in generating coherent text but remain limited by the static nature of their training data. Retrieval Augmented Generation (RAG) addresses this issue by combining LLMs with up-to-date information retrieval, but also expand the attack surface of the system. This paper investigates prompt injection attacks on RAG, focusing on malicious objectives beyond misinformation, such as inserting harmful links, promoting unauthorized services, and initiating denial-of-service behaviors. We build upon existing corpus poisoning techniques and propose a novel backdoor attack aimed at the fine-tuning process of the dense retriever component. Our experiments reveal that corpus poisoning can achieve significant attack success rates through the injection of a small number of compromised documents into the retriever corpus. In contrast, backdoor attacks demonstrate even higher success rates but necessitate a more complex setup, as the victim must fine-tune the retriever using the attacker poisoned dataset.