HubScan: Detecting Hubness Poisoning in Retrieval-Augmented Generation Systems

📄 arXiv: 2602.22427 📥 PDF

作者: Idan Habler, Vineeth Sai Narajala, Stav Koren, Amy Chang, Tiffany Saade

分类: cs.CR, cs.AI

发布日期: 2026-02-28


💡 一句话要点

HubScan:检测检索增强生成系统中枢纽性投毒攻击

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 枢纽性攻击 安全扫描 向量数据库 多检测器架构

📋 核心要点

  1. RAG系统易受枢纽性攻击,攻击者可利用频繁出现在检索结果中的“枢纽”引入恶意内容,影响系统安全。
  2. HubScan提出多检测器架构,结合统计分析、聚类分析、稳定性测试和领域/模态感知检测,全面识别枢纽。
  3. 实验表明,HubScan在多个数据集上能有效检测对抗性枢纽,且在真实网络文档中区分恶意内容和正常内容。

📝 摘要(中文)

检索增强生成(RAG)系统是现代人工智能应用的关键,它允许大型语言模型通过向量相似性搜索获取外部知识。然而,这些系统面临着一个重要的安全缺陷:枢纽性——某些项目在不成比例的大量不同查询的top-k检索结果中频繁出现。这些枢纽可以被利用来引入有害内容、改变搜索排名、绕过内容过滤并降低系统性能。我们介绍HubScan,一个开源安全扫描器,用于评估向量索引和嵌入,以识别RAG系统中的枢纽。HubScan提出了一个多检测器架构,集成了:(1)利用基于中位数/MAD的z-score的鲁棒统计枢纽性检测,(2)聚类扩散分析以评估跨聚类检索模式,(3)查询扰动下的稳定性测试,以及(4)针对特定类别和跨模态攻击的领域感知和模态感知检测。我们的解决方案适用于多种向量数据库(FAISS、Pinecone、Qdrant、Weaviate),并提供通用的检索技术,包括向量相似性、混合搜索和具有重排序功能的词汇匹配。我们在Food-101、MS-COCO和FiQA对抗性枢纽性基准上评估了HubScan,这些基准是使用最先进的梯度优化和基于质心的枢纽生成方法构建的。HubScan在0.2%的警报预算下实现了90%的召回率,在0.4%的警报预算下实现了100%的召回率,对抗性枢纽排名高于第99.8个百分位。领域范围扫描恢复了100%的逃避全局检测的定向攻击。对来自MS MARCO的100万份真实网络文档的生产验证表明,干净文档和对抗性内容之间存在显着的分数分离。我们的工作为检测生产RAG系统中的枢纽性威胁提供了一个实用且可扩展的框架。

🔬 方法详解

问题定义:论文旨在解决检索增强生成(RAG)系统中存在的枢纽性投毒攻击问题。现有方法难以有效识别和防御恶意构造的“枢纽”文档,这些文档会频繁出现在检索结果中,从而导致有害信息传播、搜索结果偏差和系统性能下降。现有的内容过滤机制也容易被绕过。

核心思路:论文的核心思路是设计一个多维度的枢纽检测框架,综合考虑统计特征、聚类行为、查询稳定性以及领域和模态信息,从而更准确地识别和定位恶意枢纽。通过结合多种检测方法,提高检测的鲁棒性和泛化能力,降低误报率。

技术框架:HubScan 包含以下主要模块: 1. 统计枢纽性检测:利用基于中位数绝对偏差(MAD)的Z-score来识别异常频繁出现在检索结果中的文档。 2. 聚类扩散分析:评估文档在不同聚类中的检索模式,检测跨聚类频繁出现的文档,这些文档可能具有枢纽特性。 3. 查询扰动稳定性测试:通过对查询进行微小扰动,观察检索结果的变化,如果某个文档始终出现在结果中,则可能是一个枢纽。 4. 领域和模态感知检测:针对特定领域(如食品、图像)和模态(如文本、图像)的攻击,设计专门的检测器,提高检测的针对性和准确性。

关键创新:HubScan 的关键创新在于其多检测器架构,它将多种检测方法有机结合,从而能够更全面、更准确地识别枢纽。与单一的统计方法相比,HubScan 能够更好地应对各种复杂的攻击场景,并降低误报率。领域和模态感知检测器的引入,进一步提高了检测的针对性和有效性。

关键设计:HubScan 的关键设计包括: 1. 使用基于MAD的Z-score进行鲁棒的统计枢纽性检测,降低异常值的影响。 2. 设计聚类扩散分析方法,评估文档在不同语义聚类中的分布情况。 3. 通过对查询进行微小扰动,评估检索结果的稳定性,从而识别对查询变化不敏感的枢纽。 4. 针对特定领域和模态,设计专门的检测器,并结合领域知识和模态特征进行检测。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HubScan 在 Food-101、MS-COCO 和 FiQA 数据集上进行了评估,在 0.2% 的警报预算下实现了 90% 的召回率,在 0.4% 的警报预算下实现了 100% 的召回率。对抗性枢纽的排名高于第 99.8 个百分位。领域范围扫描恢复了 100% 的逃避全局检测的定向攻击。在 MS MARCO 数据集上的生产验证表明,HubScan 能够有效区分干净文档和对抗性内容。

🎯 应用场景

HubScan 可应用于各种依赖 RAG 系统的场景,例如问答系统、信息检索、内容推荐等。通过检测和防御枢纽性攻击,可以提高系统的安全性、可靠性和用户体验。该工具可以集成到现有的 RAG 系统中,作为安全防护层,防止恶意内容传播和系统性能下降。未来,可以进一步扩展 HubScan 的功能,支持更多的数据类型和攻击场景。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) systems are essential to contemporary AI applications, allowing large language models to obtain external knowledge via vector similarity search. Nevertheless, these systems encounter a significant security flaw: hubness - items that frequently appear in the top-k retrieval results for a disproportionately high number of varied queries. These hubs can be exploited to introduce harmful content, alter search rankings, bypass content filtering, and decrease system performance.We introduce hubscan, an open-source security scanner that evaluates vector indices and embeddings to identify hubs in RAG systems. Hubscan presents a multi-detector architecture that integrates: (1) robust statistical hubness detection utilizing median/MAD-based z-scores, (2) cluster spread analysis to assess cross-cluster retrieval patterns, (3) stability testing under query perturbations, and (4) domain-aware and modality-aware detection for category-specific and cross-modal attacks. Our solution accommodates several vector databases (FAISS, Pinecone, Qdrant, Weaviate) and offers versatile retrieval techniques, including vector similarity, hybrid search, and lexical matching with reranking capabilities.We evaluate hubscan on Food-101, MS-COCO, and FiQA adversarial hubness benchmarks constructed using state-of-the-art gradient-optimized and centroid-based hub generation methods. hubscan achieves 90% recall at a 0.2% alert budget and 100% recall at 0.4%, with adversarial hubs ranking above the 99.8th percentile. Domain-scoped scanning recovers 100% of targeted attacks that evade global detection. Production validation on 1M real web documents from MS MARCO demonstrates significant score separation between clean documents and adversarial content. Our work provides a practical, extensible framework for detecting hubness threats in production RAG systems.