Safeguarding RAG Pipelines with GMTP: A Gradient-based Masked Token Probability Method for Poisoned Document Detection

📄 arXiv: 2507.18202v1 📥 PDF

作者: San Kim, Jonghwi Kim, Yejin Jeon, Gary Geunbae Lee

分类: cs.CL, cs.AI

发布日期: 2025-07-24

备注: 18 pages, accepted to ACL Findings 2025


💡 一句话要点

提出GMTP方法,通过梯度分析和掩码概率检测RAG管道中的恶意文档。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 恶意文档检测 梯度分析 掩码语言模型 信息安全

📋 核心要点

  1. RAG系统易受恶意文档攻击,现有方法难以有效识别并过滤这些文档,导致生成结果受污染。
  2. GMTP方法通过分析检索器梯度来识别关键Token,并利用掩码语言模型评估这些Token的恶意程度。
  3. 实验表明,GMTP能够有效过滤超过90%的恶意文档,同时保持检索和生成性能,具有良好的鲁棒性。

📝 摘要(中文)

检索增强生成(RAG)通过提供外部知识来增强大型语言模型(LLM),从而实现更准确和最新的响应。然而,这种对外部资源的依赖带来安全风险,攻击者可以将恶意文档注入知识库,从而引导生成过程产生有害或误导性的输出。本文提出了一种新的防御方法,即基于梯度的掩码Token概率(GMTP),用于检测和过滤对抗性制作的文档。具体来说,GMTP通过检查检索器相似度函数的梯度来识别高影响力Token。然后,这些关键Token被掩盖,并通过掩码语言模型(MLM)检查它们的概率。由于注入的Token通常表现出显著较低的掩码Token概率,这使得GMTP能够轻松检测恶意文档并实现高精度过滤。实验表明,GMTP能够消除超过90%的恶意内容,同时保留相关文档,从而在不同的数据集和对抗性设置中保持强大的检索和生成性能。

🔬 方法详解

问题定义:RAG系统依赖外部知识库,攻击者可以通过注入恶意文档来污染知识库,从而影响LLM的生成结果。现有方法在检测和过滤这些恶意文档方面存在不足,容易受到对抗性攻击的影响。

核心思路:GMTP的核心思路是利用梯度信息来识别对检索结果影响最大的Token,并使用掩码语言模型(MLM)来评估这些Token的“可信度”。恶意注入的Token通常与上下文不一致,因此在被掩码后,MLM预测出的概率会显著降低。

技术框架:GMTP主要包含以下几个步骤:1) 计算检索器相似度函数的梯度,以确定每个Token对检索结果的影响力;2) 选择影响力最大的Top-K个Token作为关键Token;3) 掩码这些关键Token,并使用MLM预测被掩码Token的概率;4) 根据预测概率与预设阈值的比较,判断文档是否为恶意文档。

关键创新:GMTP的关键创新在于结合了梯度分析和掩码语言模型。梯度分析能够准确识别对检索结果影响最大的Token,而MLM能够有效评估这些Token的上下文一致性,从而实现对恶意文档的高精度检测。与传统的基于规则或统计的方法相比,GMTP具有更强的鲁棒性和泛化能力。

关键设计:GMTP的关键设计包括:1) 梯度计算方式的选择,例如可以使用一阶梯度或二阶梯度;2) 关键Token数量K的选择,需要平衡检测精度和计算复杂度;3) 掩码Token概率阈值的设定,需要根据具体数据集和攻击方式进行调整;4) 使用的MLM模型的选择,需要考虑模型的性能和计算资源。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GMTP方法能够有效消除超过90%的恶意内容,同时保留相关文档,从而在不同的数据集和对抗性设置中保持强大的检索和生成性能。与现有方法相比,GMTP在检测精度和鲁棒性方面均有显著提升,能够有效应对各种对抗性攻击。

🎯 应用场景

GMTP方法可应用于各种基于RAG的问答系统、知识库检索系统和内容生成平台,用于增强系统的安全性,防止恶意信息的传播。该方法能够有效过滤恶意文档,提高生成内容的质量和可信度,保护用户免受虚假信息和有害内容的侵害。未来,该方法可以扩展到其他类型的攻击检测,例如对抗性样本检测和数据投毒攻击防御。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) enhances Large Language Models (LLMs) by providing external knowledge for accurate and up-to-date responses. However, this reliance on external sources exposes a security risk, attackers can inject poisoned documents into the knowledge base to steer the generation process toward harmful or misleading outputs. In this paper, we propose Gradient-based Masked Token Probability (GMTP), a novel defense method to detect and filter out adversarially crafted documents. Specifically, GMTP identifies high-impact tokens by examining gradients of the retriever's similarity function. These key tokens are then masked, and their probabilities are checked via a Masked Language Model (MLM). Since injected tokens typically exhibit markedly low masked-token probabilities, this enables GMTP to easily detect malicious documents and achieve high-precision filtering. Experiments demonstrate that GMTP is able to eliminate over 90% of poisoned content while retaining relevant documents, thus maintaining robust retrieval and generation performance across diverse datasets and adversarial settings.