Safeguarding RAG Pipelines with GMTP: A Gradient-based Masked Token Probability Method for Poisoned Document Detection

作者: San Kim, Jonghwi Kim, Yejin Jeon, Gary Geunbae Lee

分类: cs.CL, cs.AI

发布日期: 2025-07-24

备注: 18 pages, accepted to ACL Findings 2025

💡 一句话要点

提出GMTP方法，通过梯度分析和掩码概率检测RAG管道中的恶意文档。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 恶意文档检测 梯度分析 掩码语言模型 信息安全

📋 核心要点

RAG系统易受恶意文档攻击，现有方法难以有效识别并过滤这些文档，导致生成结果受污染。
GMTP方法通过分析检索器梯度来识别关键Token，并利用掩码语言模型评估这些Token的恶意程度。
实验表明，GMTP能够有效过滤超过90%的恶意文档，同时保持检索和生成性能，具有良好的鲁棒性。

📝 摘要（中文）

检索增强生成(RAG)通过提供外部知识来增强大型语言模型(LLM)，从而实现更准确和最新的响应。然而，这种对外部资源的依赖带来安全风险，攻击者可以将恶意文档注入知识库，从而引导生成过程产生有害或误导性的输出。本文提出了一种新的防御方法，即基于梯度的掩码Token概率(GMTP)，用于检测和过滤对抗性制作的文档。具体来说，GMTP通过检查检索器相似度函数的梯度来识别高影响力Token。然后，这些关键Token被掩盖，并通过掩码语言模型(MLM)检查它们的概率。由于注入的Token通常表现出显著较低的掩码Token概率，这使得GMTP能够轻松检测恶意文档并实现高精度过滤。实验表明，GMTP能够消除超过90%的恶意内容，同时保留相关文档，从而在不同的数据集和对抗性设置中保持强大的检索和生成性能。

🔬 方法详解

问题定义：RAG系统依赖外部知识库，攻击者可以通过注入恶意文档来污染知识库，从而影响LLM的生成结果。现有方法在检测和过滤这些恶意文档方面存在不足，容易受到对抗性攻击的影响。

核心思路：GMTP的核心思路是利用梯度信息来识别对检索结果影响最大的Token，并使用掩码语言模型(MLM)来评估这些Token的“可信度”。恶意注入的Token通常与上下文不一致，因此在被掩码后，MLM预测出的概率会显著降低。

技术框架：GMTP主要包含以下几个步骤：1) 计算检索器相似度函数的梯度，以确定每个Token对检索结果的影响力；2) 选择影响力最大的Top-K个Token作为关键Token；3) 掩码这些关键Token，并使用MLM预测被掩码Token的概率；4) 根据预测概率与预设阈值的比较，判断文档是否为恶意文档。

关键创新：GMTP的关键创新在于结合了梯度分析和掩码语言模型。梯度分析能够准确识别对检索结果影响最大的Token，而MLM能够有效评估这些Token的上下文一致性，从而实现对恶意文档的高精度检测。与传统的基于规则或统计的方法相比，GMTP具有更强的鲁棒性和泛化能力。

关键设计：GMTP的关键设计包括：1) 梯度计算方式的选择，例如可以使用一阶梯度或二阶梯度；2) 关键Token数量K的选择，需要平衡检测精度和计算复杂度；3) 掩码Token概率阈值的设定，需要根据具体数据集和攻击方式进行调整；4) 使用的MLM模型的选择，需要考虑模型的性能和计算资源。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GMTP方法能够有效消除超过90%的恶意内容，同时保留相关文档，从而在不同的数据集和对抗性设置中保持强大的检索和生成性能。与现有方法相比，GMTP在检测精度和鲁棒性方面均有显著提升，能够有效应对各种对抗性攻击。

🎯 应用场景

GMTP方法可应用于各种基于RAG的问答系统、知识库检索系统和内容生成平台，用于增强系统的安全性，防止恶意信息的传播。该方法能够有效过滤恶意文档，提高生成内容的质量和可信度，保护用户免受虚假信息和有害内容的侵害。未来，该方法可以扩展到其他类型的攻击检测，例如对抗性样本检测和数据投毒攻击防御。

📄 摘要（原文）

Retrieval-Augmented Generation (RAG) enhances Large Language Models (LLMs) by providing external knowledge for accurate and up-to-date responses. However, this reliance on external sources exposes a security risk, attackers can inject poisoned documents into the knowledge base to steer the generation process toward harmful or misleading outputs. In this paper, we propose Gradient-based Masked Token Probability (GMTP), a novel defense method to detect and filter out adversarially crafted documents. Specifically, GMTP identifies high-impact tokens by examining gradients of the retriever's similarity function. These key tokens are then masked, and their probabilities are checked via a Masked Language Model (MLM). Since injected tokens typically exhibit markedly low masked-token probabilities, this enables GMTP to easily detect malicious documents and achieve high-precision filtering. Experiments demonstrate that GMTP is able to eliminate over 90% of poisoned content while retaining relevant documents, thus maintaining robust retrieval and generation performance across diverse datasets and adversarial settings.

Safeguarding RAG Pipelines with GMTP: A Gradient-based Masked Token Probability Method for Poisoned Document Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理