GRADA: Graph-based Reranking against Adversarial Documents Attack
作者: Jingjie Zheng, Aryo Pradipta Gema, Giwon Hong, Xuanli He, Pasquale Minervini, Youcheng Sun, Qiongkai Xu
分类: cs.IR, cs.AI
发布日期: 2025-05-12 (更新: 2025-09-18)
💡 一句话要点
提出GRADA,通过图重排序对抗检索增强生成中的对抗文档攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 对抗攻击 图重排序 大型语言模型 文档检索
📋 核心要点
- RAG系统易受对抗文档攻击,攻击者构造与查询相似但有害的文档干扰检索。
- GRADA利用对抗文档与良性文档相似度低的特点,通过图重排序降低攻击成功率。
- 实验表明,GRADA在多个LLM和数据集上有效降低攻击成功率,同时保持了检索准确性。
📝 摘要(中文)
检索增强生成(RAG)框架通过整合来自检索文档的外部知识来提高大型语言模型(LLM)的准确性,从而克服了模型静态内在知识的局限性。然而,这些系统容易受到对抗性攻击的影响,这些攻击通过引入对抗性文档来操纵检索过程,这些文档在语义上与查询相似。值得注意的是,虽然这些对抗性文档与查询相似,但它们与检索集中的良性文档的相似性较弱。因此,我们提出了一种简单而有效的基于图的重排序对抗对抗文档攻击(GRADA)框架,旨在保持检索质量,同时显着降低对抗攻击的成功率。我们的研究通过在五个LLM上进行的实验评估了我们方法的有效性:GPT-3.5-Turbo、GPT-4o、Llama3.1-8b、Llama3.1-70b和Qwen2.5-7b。我们使用三个数据集来评估性能,来自Natural Questions数据集的结果表明,攻击成功率降低高达80%,同时保持了最小的准确性损失。
🔬 方法详解
问题定义:论文旨在解决检索增强生成(RAG)系统中存在的对抗文档攻击问题。现有方法容易受到攻击,攻击者可以通过构造与查询语义相似但有害的文档来干扰检索过程,从而降低RAG系统的准确性和可靠性。现有方法未能有效区分对抗文档和良性文档,导致检索结果受到污染。
核心思路:GRADA的核心思路是利用对抗文档与检索集中其他良性文档之间的相似度较低的特点。对抗文档通常只与查询相似,而与检索集中其他文档的关联较弱。通过构建文档之间的相似度图,并利用图结构进行重排序,可以降低对抗文档的排名,从而减少其对RAG系统的影响。
技术框架:GRADA框架主要包含以下几个步骤:1) 文档检索:使用现有的检索模型(例如,基于向量相似度的方法)从文档库中检索与查询相关的文档。2) 相似度图构建:基于检索到的文档构建相似度图,节点代表文档,边代表文档之间的相似度。相似度可以使用余弦相似度或其他相似度度量方法计算。3) 图重排序:利用图结构信息对文档进行重排序。具体来说,可以使用图排序算法(例如,PageRank或 personalized PageRank)来计算每个文档在图中的重要性,并根据重要性对文档进行排序。4) RAG生成:将重排序后的文档输入到大型语言模型(LLM)中,生成最终的答案。
关键创新:GRADA的关键创新在于利用图结构信息来区分对抗文档和良性文档。与传统的基于文本相似度的重排序方法不同,GRADA考虑了文档之间的关联关系,从而可以更有效地识别和降低对抗文档的排名。这种基于图的重排序方法可以显著提高RAG系统对对抗攻击的鲁棒性。
关键设计:GRADA的关键设计包括:1) 相似度度量:选择合适的相似度度量方法来计算文档之间的相似度。常用的方法包括余弦相似度、Jaccard相似度等。2) 图排序算法:选择合适的图排序算法来计算文档在图中的重要性。常用的算法包括PageRank、personalized PageRank等。3) 重排序参数:调整重排序算法的参数,例如PageRank的阻尼系数,以获得最佳的重排序效果。4) 相似度阈值:设置相似度阈值,过滤掉相似度较低的文档对,以减少图的复杂性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GRADA在Natural Questions数据集上可以将对抗攻击的成功率降低高达80%,同时保持了最小的准确性损失。在其他数据集和LLM上的实验也显示出类似的趋势,证明了GRADA的有效性和泛化能力。GRADA在降低攻击成功率的同时,对原始检索质量的影响很小,表明其具有良好的实用价值。
🎯 应用场景
GRADA可应用于各种依赖RAG的场景,例如问答系统、知识库检索、对话系统等。通过提高RAG系统对对抗攻击的鲁棒性,GRADA可以增强这些应用的安全性和可靠性,防止恶意用户通过构造对抗文档来操纵系统行为。该研究对于提升LLM在实际应用中的安全性具有重要意义。
📄 摘要(原文)
Retrieval Augmented Generation (RAG) frameworks improve the accuracy of large language models (LLMs) by integrating external knowledge from retrieved documents, thereby overcoming the limitations of models' static intrinsic knowledge. However, these systems are susceptible to adversarial attacks that manipulate the retrieval process by introducing documents that are adversarial yet semantically similar to the query. Notably, while these adversarial documents resemble the query, they exhibit weak similarity to benign documents in the retrieval set. Thus, we propose a simple yet effective Graph-based Reranking against Adversarial Document Attacks (GRADA) framework aiming at preserving retrieval quality while significantly reducing the success of adversaries. Our study evaluates the effectiveness of our approach through experiments conducted on five LLMs: GPT-3.5-Turbo, GPT-4o, Llama3.1-8b, Llama3.1-70b, and Qwen2.5-7b. We use three datasets to assess performance, with results from the Natural Questions dataset demonstrating up to an 80% reduction in attack success rates while maintaining minimal loss in accuracy.