ProGRank: Probe-Gradient Reranking to Defend Dense-Retriever RAG from Corpus Poisoning
作者: Xiangyu Yin, Yi Qi, Chih-hong Cheng
分类: cs.AI
发布日期: 2026-03-24
💡 一句话要点
提出ProGRank,通过探针梯度重排序防御RAG中的语料库投毒攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 语料库投毒 探针梯度 重排序 防御攻击
📋 核心要点
- RAG系统易受语料库投毒攻击,现有防御方法部署复杂,依赖内容过滤或额外模型。
- ProGRank通过扰动查询-段落对并分析检索器的探针梯度,检测潜在的投毒样本。
- 实验表明,ProGRank在多种数据集和攻击下表现出强大的防御能力,且无需训练或修改原始语料。
📝 摘要(中文)
检索增强生成(RAG)通过检索到的证据来提高大型语言模型应用的可靠性,但也引入了一个新的攻击面:语料库投毒。在这种情况下,攻击者注入或编辑段落,使其在目标查询的Top-$K$结果中排名靠前,从而影响下游生成。现有的语料库投毒防御方法通常依赖于内容过滤、辅助模型或生成器端推理,这会增加部署难度。我们提出了ProGRank,一种针对密集检索器RAG的后验、免训练的检索器端防御方法。ProGRank在轻微的随机扰动下对每个查询-段落对进行压力测试,并从检索器的一小部分固定参数子集中提取探针梯度。从这些信号中,它推导出两个不稳定性信号,即表征一致性和离散风险,并将它们与分数门控结合在重排序步骤中。ProGRank保留了原始段落内容,无需重新训练,并且在部署的检索器不可用时也支持基于代理的变体。在三个数据集、三个密集检索器骨干、代表性的语料库投毒攻击以及检索阶段和端到端设置中进行的大量实验表明,ProGRank提供了更强的防御性能和良好的鲁棒性-效用权衡。它在自适应规避攻击下也保持竞争力。
🔬 方法详解
问题定义:论文旨在解决检索增强生成(RAG)系统中,由于语料库投毒攻击导致检索结果被恶意篡改,进而影响下游生成质量的问题。现有防御方法,如内容过滤、辅助模型或生成器端推理,存在部署复杂、依赖额外资源或影响生成效率等痛点。
核心思路:ProGRank的核心思路是利用检索器对输入扰动的敏感性来识别潜在的投毒样本。投毒样本通常经过精心设计,对微小的输入变化可能导致检索结果的显著变化。通过分析检索器在扰动下的梯度变化,可以捕捉到这种不稳定性,从而区分正常样本和投毒样本。
技术框架:ProGRank是一个后验的重排序框架,主要包含以下几个步骤:1) 扰动生成:对原始查询-段落对进行轻微的随机扰动,生成多个扰动后的样本。2) 探针梯度提取:利用扰动后的样本,从检索器的一小部分固定参数子集中提取探针梯度。3) 不稳定性信号计算:基于探针梯度,计算两个不稳定性信号:表征一致性(Representational Consistency)和离散风险(Dispersion Risk)。表征一致性衡量扰动前后表征的相似度,离散风险衡量扰动后表征的离散程度。4) 分数门控和重排序:将不稳定性信号与原始检索分数结合,通过一个分数门控机制,对检索结果进行重排序。
关键创新:ProGRank的关键创新在于利用探针梯度来捕捉检索器对输入扰动的敏感性,从而识别潜在的投毒样本。与现有方法相比,ProGRank无需训练、无需修改原始语料,且可以作为后验模块集成到现有的RAG系统中。此外,ProGRank还提出了表征一致性和离散风险两个新的不稳定性信号,能够更有效地识别投毒样本。
关键设计:ProGRank的关键设计包括:1) 探针参数选择:选择检索器中一小部分固定参数子集,以降低计算成本。2) 扰动策略:采用轻微的随机扰动,避免对原始检索结果产生过大的影响。3) 不稳定性信号融合:通过分数门控机制,将表征一致性和离散风险与原始检索分数进行有效融合。4) 代理模型支持:当无法直接访问部署的检索器时,可以使用代理模型来提取探针梯度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ProGRank在三个数据集上均取得了显著的防御效果,相较于现有防御方法,在防御性能和鲁棒性-效用权衡方面均有提升。例如,在某些攻击场景下,ProGRank可以将攻击成功率降低50%以上。此外,ProGRank在自适应规避攻击下也表现出较强的竞争力。
🎯 应用场景
ProGRank可应用于各种依赖RAG的场景,例如问答系统、知识库检索、文档摘要等。它可以有效防御语料库投毒攻击,提高RAG系统的可靠性和安全性,尤其是在信息安全要求较高的领域,如金融、医疗和法律等,具有重要的应用价值和潜力。
📄 摘要(原文)
Retrieval-Augmented Generation (RAG) improves the reliability of large language model applications by grounding generation in retrieved evidence, but it also introduces a new attack surface: corpus poisoning. In this setting, an adversary injects or edits passages so that they are ranked into the Top-$K$ results for target queries and then affect downstream generation. Existing defences against corpus poisoning often rely on content filtering, auxiliary models, or generator-side reasoning, which can make deployment more difficult. We propose ProGRank, a post hoc, training-free retriever-side defence for dense-retriever RAG. ProGRank stress-tests each query--passage pair under mild randomized perturbations and extracts probe gradients from a small fixed parameter subset of the retriever. From these signals, it derives two instability signals, representational consistency and dispersion risk, and combines them with a score gate in a reranking step. ProGRank preserves the original passage content, requires no retraining, and also supports a surrogate-based variant when the deployed retriever is unavailable. Extensive experiments across three datasets, three dense retriever backbones, representative corpus poisoning attacks, and both retrieval-stage and end-to-end settings show that ProGRank provides stronger defence performance and a favorable robustness--utility trade-off. It also remains competitive under adaptive evasive attacks.