Tricking Retrievers with Influential Tokens: An Efficient Black-Box Corpus Poisoning Attack
作者: Cheng Wang, Yiwei Wang, Yujun Cai, Bryan Hooi
分类: cs.LG, cs.CR
发布日期: 2025-03-27
备注: Accepted to NAACL 2025 Main Track
💡 一句话要点
提出DIGA:一种高效的黑盒语料库投毒攻击方法,用于欺骗检索增强生成系统。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 语料库投毒攻击 黑盒攻击 遗传算法 对抗样本
📋 核心要点
- 现有语料库投毒攻击方法计算成本高,需要访问检索器梯度或大量计算资源,效率和可扩展性不足。
- DIGA利用检索器对token顺序不敏感和对重要token偏好的特性,动态调整遗传算法,高效生成对抗性段落。
- 实验表明,DIGA在保持或提升攻击成功率的同时,显著提高了效率和可扩展性,优于现有方法。
📝 摘要(中文)
检索增强生成(RAG)系统通过整合外部知识来增强大型语言模型,从而解决内部知识过时和幻觉等问题。然而,它们对外部知识库的依赖使得它们容易受到语料库投毒攻击,即通过注入对抗性段落来操纵检索结果。现有的构建此类段落的方法,如随机token替换或训练反演模型,通常速度慢且计算成本高昂,需要访问检索器的梯度或大量的计算资源。为了解决这些限制,我们提出了一种高效的黑盒方法——动态重要性引导遗传算法(DIGA),它利用了检索器的两个关键属性:对token顺序的不敏感性和对有影响力的token的偏好。通过关注这些特性,DIGA动态调整其遗传操作,以生成有效的对抗性段落,并显著减少时间和内存的使用。实验评估表明,与现有方法相比,DIGA实现了卓越的效率和可扩展性,同时在多个数据集上保持了相当或更好的攻击成功率。
🔬 方法详解
问题定义:论文旨在解决检索增强生成(RAG)系统中存在的语料库投毒攻击问题。现有的攻击方法,如随机token替换和训练反演模型,计算开销大,效率低,难以扩展到大规模语料库。这些方法通常需要访问检索器的梯度信息(白盒攻击)或消耗大量计算资源(黑盒攻击),限制了其在实际场景中的应用。
核心思路:DIGA的核心思路是利用检索器对token顺序不敏感以及对“有影响力”的token存在偏好的特性,设计一种高效的黑盒攻击方法。通过关注和操纵这些关键token,可以在不访问检索器梯度信息的情况下,有效地改变检索结果,从而实现投毒攻击。
技术框架:DIGA采用遗传算法框架,主要包括以下几个阶段:初始化种群(对抗性段落),评估种群中每个个体的适应度(攻击效果),选择适应度高的个体进行交叉和变异操作,生成新的种群,重复上述过程直到达到预定的迭代次数或攻击成功。DIGA的关键在于动态调整遗传操作,以更有效地利用检索器的特性。
关键创新:DIGA的关键创新在于其动态调整的遗传操作。传统遗传算法通常采用固定的交叉和变异概率,而DIGA根据当前种群的状态和检索器的特性,动态调整这些概率。例如,DIGA会优先替换那些对检索结果影响较大的token,从而提高攻击效率。此外,DIGA还引入了一种新的变异算子,用于在保持语义连贯性的前提下,生成更具欺骗性的对抗性段落。
关键设计:DIGA使用了一种基于token重要性的变异策略。具体来说,它首先计算每个token对检索结果的影响力得分,然后优先替换那些影响力得分较高的token。影响力得分可以通过多种方式计算,例如,可以通过观察替换某个token后检索结果的变化来估计其影响力。此外,DIGA还使用了一种基于语言模型的约束,以确保生成的对抗性段落在语法上是合理的。适应度函数通常定义为目标段落在检索结果中的排名,攻击的目标是使目标段落的排名尽可能高。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DIGA在多个数据集上实现了与现有方法相当或更好的攻击成功率,同时显著降低了计算成本。例如,在某些数据集上,DIGA的攻击时间比现有方法缩短了几个数量级,并且需要的内存资源也大大减少。这使得DIGA能够扩展到更大规模的语料库,更具实用性。
🎯 应用场景
该研究成果可应用于提升检索增强生成系统的安全性,防御恶意攻击者通过语料库投毒篡改检索结果。其潜在应用领域包括问答系统、信息检索、知识图谱等,有助于构建更安全可靠的AI系统,减少虚假信息传播和恶意操纵风险。未来可进一步研究更鲁棒的防御机制,提升RAG系统应对复杂攻击的能力。
📄 摘要(原文)
Retrieval-augmented generation (RAG) systems enhance large language models by incorporating external knowledge, addressing issues like outdated internal knowledge and hallucination. However, their reliance on external knowledge bases makes them vulnerable to corpus poisoning attacks, where adversarial passages can be injected to manipulate retrieval results. Existing methods for crafting such passages, such as random token replacement or training inversion models, are often slow and computationally expensive, requiring either access to retriever's gradients or large computational resources. To address these limitations, we propose Dynamic Importance-Guided Genetic Algorithm (DIGA), an efficient black-box method that leverages two key properties of retrievers: insensitivity to token order and bias towards influential tokens. By focusing on these characteristics, DIGA dynamically adjusts its genetic operations to generate effective adversarial passages with significantly reduced time and memory usage. Our experimental evaluation shows that DIGA achieves superior efficiency and scalability compared to existing methods, while maintaining comparable or better attack success rates across multiple datasets.