GRADA: Graph-based Reranking against Adversarial Documents Attack

📄 arXiv: 2505.07546v3 📥 PDF

作者: Jingjie Zheng, Aryo Pradipta Gema, Giwon Hong, Xuanli He, Pasquale Minervini, Youcheng Sun, Qiongkai Xu

分类: cs.IR, cs.AI

发布日期: 2025-05-12 (更新: 2025-09-18)


💡 一句话要点

提出GRADA框架以应对对抗性文档攻击问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对抗性攻击 检索增强生成 图神经网络 文档重排序 自然语言处理 信息检索 鲁棒性 大型语言模型

📋 核心要点

  1. 现有的检索增强生成框架容易受到对抗性文档的攻击,导致检索结果质量下降。
  2. 本文提出的GRADA框架通过图结构重排序来识别和降低对抗性文档的影响,提升检索的鲁棒性。
  3. 实验表明,GRADA在多个大型语言模型上有效降低了对抗攻击的成功率,同时保持了较高的准确性。

📝 摘要(中文)

检索增强生成(RAG)框架通过整合外部知识来提高大型语言模型(LLMs)的准确性,但这些系统容易受到对抗性攻击的影响。攻击者通过引入与查询语义相似但与良性文档相对较弱的对抗性文档来操控检索过程。为此,本文提出了一种简单而有效的图基重排序框架GRADA,旨在保持检索质量的同时显著降低对抗者的成功率。实验结果表明,在五种大型语言模型上,使用自然问题数据集时,攻击成功率降低了80%,且准确性损失极小。

🔬 方法详解

问题定义:本文旨在解决检索增强生成框架在面对对抗性文档攻击时的脆弱性。现有方法在引入对抗性文档后,检索结果的质量和准确性受到严重影响。

核心思路:GRADA框架通过构建图结构来对检索结果进行重排序,利用文档之间的关系来识别和抑制对抗性文档的影响,从而提高系统的鲁棒性。

技术框架:GRADA的整体架构包括文档检索模块、图构建模块和重排序模块。首先,从外部知识库中检索相关文档,然后构建文档之间的相似性图,最后通过图重排序来优化检索结果。

关键创新:GRADA的创新之处在于其图结构重排序方法,能够有效区分对抗性文档与良性文档,显著提升了对抗攻击的抵抗能力。这一方法与传统的基于相似度的检索方法有本质区别。

关键设计:在设计中,GRADA采用了特定的相似度度量来构建图,使用了改进的损失函数来优化重排序过程。此外,网络结构中引入了图神经网络(GNN)来增强文档间的关系建模能力。

📊 实验亮点

在实验中,GRADA在五种大型语言模型上进行了评估,特别是在自然问题数据集上,成功降低了对抗攻击的成功率达80%。同时,GRADA在保持模型准确性方面表现出色,损失极小,显示出其在实际应用中的有效性和可靠性。

🎯 应用场景

GRADA框架具有广泛的应用潜力,特别是在需要高可靠性和安全性的自然语言处理任务中,如智能问答系统、信息检索和对话系统。通过提升对抗攻击的抵抗能力,GRADA能够为用户提供更准确和可信的检索结果,未来可进一步扩展到其他领域,如金融、医疗等对信息安全要求较高的场景。

📄 摘要(原文)

Retrieval Augmented Generation (RAG) frameworks improve the accuracy of large language models (LLMs) by integrating external knowledge from retrieved documents, thereby overcoming the limitations of models' static intrinsic knowledge. However, these systems are susceptible to adversarial attacks that manipulate the retrieval process by introducing documents that are adversarial yet semantically similar to the query. Notably, while these adversarial documents resemble the query, they exhibit weak similarity to benign documents in the retrieval set. Thus, we propose a simple yet effective Graph-based Reranking against Adversarial Document Attacks (GRADA) framework aiming at preserving retrieval quality while significantly reducing the success of adversaries. Our study evaluates the effectiveness of our approach through experiments conducted on five LLMs: GPT-3.5-Turbo, GPT-4o, Llama3.1-8b, Llama3.1-70b, and Qwen2.5-7b. We use three datasets to assess performance, with results from the Natural Questions dataset demonstrating up to an 80% reduction in attack success rates while maintaining minimal loss in accuracy.