MARAGE: Transferable Multi-Model Adversarial Attack for Retrieval-Augmented Generation Data Extraction

📄 arXiv: 2502.04360v1 📥 PDF

作者: Xiao Hu, Eric Liu, Weizhou Wang, Xiangyu Guo, David Lie

分类: cs.CL, cs.CR, cs.LG

发布日期: 2025-02-05


💡 一句话要点

提出MARAGE框架,通过可迁移对抗攻击实现RAG系统的数据提取。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: RAG系统 数据提取攻击 对抗攻击 多模型迁移学习 LLM安全

📋 核心要点

  1. 现有RAG数据提取攻击依赖手动构造的prompt,效率低且泛化性差,难以应对多种LLM。
  2. MARAGE框架通过优化对抗性字符串,附加到用户查询中,诱导RAG系统泄露检索到的数据原文。
  3. 实验证明MARAGE在多种LLM和RAG数据集上优于现有方法,并具有良好的跨模型迁移性。

📝 摘要(中文)

检索增强生成(RAG)通过将LLM的输出与外部知识库检索到的信息相结合,来缓解LLM中的幻觉问题。然而,在构建这些外部数据存储时使用私有资源和数据会使其面临数据提取攻击的风险,攻击者试图从这些私有数据库中窃取数据。现有的RAG提取攻击通常依赖于手动设计的提示,这限制了它们的有效性。本文介绍了一个名为MARAGE的框架,用于优化对抗性字符串,当将其附加到提交给目标RAG系统的用户查询时,会导致输出包含检索到的RAG数据的原文。MARAGE利用连续优化方案,同时整合来自具有不同架构的多个模型的梯度,以增强优化字符串对未见模型的迁移性。此外,我们提出了一种强调目标RAG数据中初始token的策略,进一步提高了攻击的泛化能力。评估表明,MARAGE在多个LLM和RAG数据集上始终优于手动和基于优化的基线,同时保持了对先前未见模型的强大迁移性。此外,我们进行了探测任务,以阐明MARAGE比基线更有效的原因,并分析了我们的方法对模型内部状态的影响。

🔬 方法详解

问题定义:论文旨在解决RAG系统中数据泄露的问题。现有的RAG数据提取攻击方法,例如手动构造prompt,存在效率低、泛化性差的缺点,难以适应不同的LLM和RAG数据集。攻击者可以通过精心设计的查询,诱导RAG系统泄露其存储的私有数据,对数据安全构成威胁。

核心思路:论文的核心思路是利用对抗攻击,生成一个能够诱导RAG系统泄露数据的对抗性字符串。该字符串被附加到用户的查询中,使得RAG系统在检索和生成响应时,被迫包含目标数据。为了提高攻击的迁移性,论文采用多模型联合训练的方式,使得生成的对抗性字符串能够有效地攻击未知的RAG系统。

技术框架:MARAGE框架主要包含以下几个阶段:1) 初始化对抗性字符串;2) 使用多个LLM计算对抗性字符串的梯度;3) 聚合梯度并更新对抗性字符串;4) 将对抗性字符串附加到用户查询中,提交给目标RAG系统;5) 评估RAG系统的输出是否包含目标数据。该框架通过迭代优化对抗性字符串,使其能够有效地诱导RAG系统泄露数据。

关键创新:MARAGE的关键创新在于:1) 提出了多模型联合训练的对抗攻击方法,提高了攻击的迁移性;2) 提出了一种强调目标RAG数据中初始token的策略,进一步提高了攻击的泛化能力。与现有方法相比,MARAGE能够更有效地攻击未知的RAG系统,并且不需要手动构造prompt。

关键设计:MARAGE使用连续优化方案来生成对抗性字符串。具体来说,对抗性字符串被表示为一个连续的向量,通过梯度下降法进行优化。损失函数的设计目标是最大化RAG系统输出中目标数据的概率。为了提高攻击的迁移性,MARAGE同时使用多个LLM计算梯度,并将这些梯度进行聚合。此外,MARAGE还采用了一种特殊的初始化策略,强调目标数据中的初始token,以提高攻击的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MARAGE在多个LLM(例如LLaMA2、GPT-3.5)和RAG数据集上,数据提取成功率显著优于手动prompt和基于优化的基线方法。MARAGE在攻击未见过的模型时,仍然保持了较高的攻击成功率,证明了其良好的迁移性。此外,研究还通过探测实验分析了MARAGE的有效性,发现其能够有效地影响模型的内部状态,从而诱导模型泄露数据。

🎯 应用场景

该研究成果可应用于评估和提升RAG系统的安全性,帮助开发者发现和修复潜在的数据泄露漏洞。同时,该研究也为对抗攻击领域提供了新的思路,可以应用于其他需要提高攻击迁移性的场景,例如图像识别、语音识别等。未来,可以进一步研究如何防御此类攻击,提高RAG系统的鲁棒性。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) offers a solution to mitigate hallucinations in Large Language Models (LLMs) by grounding their outputs to knowledge retrieved from external sources. The use of private resources and data in constructing these external data stores can expose them to risks of extraction attacks, in which attackers attempt to steal data from these private databases. Existing RAG extraction attacks often rely on manually crafted prompts, which limit their effectiveness. In this paper, we introduce a framework called MARAGE for optimizing an adversarial string that, when appended to user queries submitted to a target RAG system, causes outputs containing the retrieved RAG data verbatim. MARAGE leverages a continuous optimization scheme that integrates gradients from multiple models with different architectures simultaneously to enhance the transferability of the optimized string to unseen models. Additionally, we propose a strategy that emphasizes the initial tokens in the target RAG data, further improving the attack's generalizability. Evaluations show that MARAGE consistently outperforms both manual and optimization-based baselines across multiple LLMs and RAG datasets, while maintaining robust transferability to previously unseen models. Moreover, we conduct probing tasks to shed light on the reasons why MARAGE is more effective compared to the baselines and to analyze the impact of our approach on the model's internal state.