RAGShield: Detecting Numerical Claim Manipulation in Government RAG Systems
作者: KrishnaSaiReddy Patil
分类: cs.CR, cs.AI
发布日期: 2026-04-07
💡 一句话要点
RAGShield:检测政府RAG系统中数值声明的篡改,解决嵌入式防御的盲点。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: RAG系统 数值篡改检测 信息安全 自然语言处理 政府文档 上下文传播 跨源验证
📋 核心要点
- 现有基于嵌入的RAG防御在检测数值篡改方面存在根本盲点,无法有效识别细微的数值变化。
- RAGShield通过直接操作提取的数值,并结合上下文信息和跨源注册表进行验证,从而规避了嵌入式防御的局限性。
- 实验表明,RAGShield在检测真实IRS文档中的数值篡改攻击时,实现了100%的检测率,显著优于基于嵌入的防御方法。
📝 摘要(中文)
检索增强生成(RAG)系统被广泛应用于联邦机构,为公民提供税务指导、福利资格和法律信息。然而,一个错误的数字可能导致直接的经济损失。本文证明,所有基于嵌入的RAG防御都存在一个根本的盲点:即使将税收减免额更改50,000美元,也能产生0.9998的余弦相似度,这对于所有已知的检测阈值来说都是不可见的。在174个篡改对和两个嵌入模型上,平均灵敏度差距为1,459倍。该盲点在真实的IRS文档上得到了证实,其根本原因是嵌入编码的是主题,而不是数值精度。RAGShield通过直接操作提取的值来规避这个问题:一个基于模式的引擎识别政府文本中的美元金额和百分比,通过两阶段上下文传播将每个值链接到其管理实体(在2,742个真实IRS段落上的实体检测准确率为99.8%),并根据从语料库本身构建的跨源注册表验证每个声明。时间跟踪器标记超出已知政府更新计划的数值更改。在从真实IRS文档内容生成的430个攻击中,RAGShield检测到每一个攻击(0.0% ASR,95% CI [0%, 1%]),而基于嵌入的防御措施错过了79-90%的相同攻击。
🔬 方法详解
问题定义:现有基于嵌入的RAG系统在处理政府文档等对数值精度要求高的场景时,容易受到数值篡改攻击。即使是很小的数值改动,也可能导致严重的经济损失。传统的基于嵌入的防御方法,由于嵌入空间编码的是语义信息而非数值精度,因此难以有效检测这些细微的数值变化。
核心思路:RAGShield的核心思路是绕过嵌入空间,直接对文档中的数值进行提取、关联和验证。它利用模式匹配识别数值,通过上下文传播确定数值的归属实体,并结合跨源注册表进行一致性校验。这种方法能够更精确地捕捉数值变化,从而提高检测篡改的准确性。
技术框架:RAGShield主要包含以下几个模块:1) 数值提取模块:利用基于模式的引擎,从政府文本中提取美元金额和百分比等数值。2) 实体链接模块:通过两阶段上下文传播,将提取的数值与其对应的管理实体进行关联,确保数值的上下文正确性。3) 跨源验证模块:构建一个基于语料库本身的跨源注册表,用于验证每个数值声明的一致性。4) 时间跟踪模块:监控数值变化,并标记超出已知政府更新计划的数值更改。
关键创新:RAGShield最重要的创新在于其直接操作数值而非依赖嵌入空间的方法。这种方法能够克服嵌入式防御的盲点,更精确地检测数值篡改。此外,两阶段上下文传播和跨源验证机制也提高了实体链接和数值验证的准确性。
关键设计:两阶段上下文传播的具体实现细节(例如传播算法、上下文窗口大小等)未知。跨源注册表的构建方法和更新策略也未知。时间跟踪模块的具体实现方式(例如更新计划的获取方式、异常检测算法等)未知。
📊 实验亮点
RAGShield在从真实IRS文档内容生成的430个攻击中,实现了100%的检测率(0.0% ASR,95% CI [0%, 1%]),而基于嵌入的防御措施错过了79-90%的相同攻击。这表明RAGShield在检测数值篡改方面具有显著优势,能够有效克服现有嵌入式防御的局限性。
🎯 应用场景
RAGShield可应用于各种需要高数值精度的RAG系统,例如政府税务咨询、福利资格评估、法律信息检索等。通过有效检测数值篡改,RAGShield能够保护用户免受经济损失,并提高RAG系统的可靠性和安全性。未来,该技术有望扩展到其他类型的结构化数据和知识库,进一步提升RAG系统的应用价值。
📄 摘要(原文)
Retrieval-Augmented Generation (RAG) systems are deployed across federal agencies for citizen-facing tax guidance, benefits eligibility, and legal information, where a single incorrect number causes direct financial harm. This paper proves that all embedding-based RAG defenses share a fundamental blind spot: changing a tax deduction by $50,000 produces cosine similarity 0.9998, invisible to every known detection threshold. Across 174 manipulation pairs and two embedding models, the mean sensitivity gap is 1,459x. The blind spot is confirmed on real IRSthis http URLroot cause is that embeddings encode topic, not numerical precision. RAGShield sidesteps this by operating on extracted values directly: a pattern-based engine identifies dollar amounts and percentages in government text, links each value to its governing entity through two-pass context propagation (99.8% entity detection on 2,742 real IRS passages), and verifies every claim against a cross-source registry built from the corpus itself. A temporal tracker flags value changes that fall outside known government update schedules. On 430 attacks generated from real IRS document content, RAGShield detects every one (0.0% ASR, 95% CI [0%, 1%]) while embedding-based defenses miss 79-90% of the same attacks.