The Hidden Threat in Plain Text: Attacking RAG Data Loaders

📄 arXiv: 2507.05093v1 📥 PDF

作者: Alberto Castagnaro, Umberto Salviati, Mauro Conti, Luca Pajola, Simeone Pizzi

分类: cs.CR, cs.AI

发布日期: 2025-07-07

备注: currently under submission


💡 一句话要点

揭示RAG数据加载环节的隐蔽威胁:针对文档注入的知识投毒攻击

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: RAG系统 知识投毒攻击 数据加载安全 内容注入 内容混淆

📋 核心要点

  1. RAG系统依赖外部知识,但文档加载过程存在安全漏洞,易受恶意注入攻击。
  2. 提出内容混淆和内容注入两种新型攻击向量,针对常见文档格式进行隐蔽攻击。
  3. 实验证明攻击对多种RAG系统有效,成功率高,突显了保护文档摄取过程的重要性。

📝 摘要(中文)

自2022年ChatGPT问世以来,大型语言模型(LLMs)改变了人机交互方式,而检索增强生成(RAG)作为一种关键框架,通过整合外部知识来增强LLM的输出。然而,RAG对外部文档的依赖引入了新的漏洞。本文揭示了数据加载阶段的一个关键安全漏洞,恶意行为者可以通过利用文档注入来隐蔽地破坏RAG管道。我们提出了一个包含9种基于知识的投毒攻击的分类,并引入了两种新的威胁向量——内容混淆和内容注入——针对常见格式(DOCX、HTML、PDF)。我们使用一个自动化工具包,实现了19种隐蔽注入技术,测试了五个流行的数据加载器,发现攻击成功率达到74.4%(基于357个场景)。我们进一步在六个端到端RAG系统(包括白盒管道和黑盒服务,如NotebookLM和OpenAI Assistants)上验证了这些威胁,证明了高成功率和关键漏洞,这些漏洞绕过了过滤器并悄无声息地损害了输出完整性。我们的结果强调了迫切需要保护RAG系统中针对隐蔽内容操纵的文档摄取过程。

🔬 方法详解

问题定义:论文旨在解决RAG系统中数据加载阶段存在的安全漏洞问题。现有的RAG系统依赖于从外部文档中提取知识,但这个过程容易受到恶意攻击者的利用,他们可以通过注入恶意内容来污染知识库,从而影响RAG系统的输出。现有的方法缺乏对这些隐蔽攻击的有效防御机制,使得RAG系统容易受到损害。

核心思路:论文的核心思路是通过研究和分类各种可能的知识投毒攻击方式,并设计相应的攻击技术,来揭示RAG系统在数据加载阶段的脆弱性。通过模拟攻击,评估现有RAG系统和数据加载器的安全性,从而引起人们对这个问题的重视,并推动开发更安全的RAG系统。

技术框架:论文的技术框架主要包括以下几个阶段:1) 定义知识投毒攻击的分类;2) 设计针对不同文档格式(DOCX、HTML、PDF)的内容混淆和内容注入攻击技术;3) 开发自动化工具包,实现多种隐蔽注入技术;4) 使用该工具包测试流行的数据加载器和端到端RAG系统;5) 分析实验结果,评估攻击的成功率和影响。

关键创新:论文的关键创新在于:1) 提出了一个包含9种基于知识的投毒攻击的分类;2) 引入了内容混淆和内容注入两种新型威胁向量,这些向量能够绕过现有的安全过滤器,实现隐蔽攻击;3) 开发了一个自动化工具包,可以方便地测试RAG系统的安全性。

关键设计:论文的关键设计包括:1) 针对不同文档格式,设计了不同的内容混淆和内容注入技术,例如,在DOCX文件中,可以通过修改XML结构来隐藏恶意内容;在HTML文件中,可以使用CSS样式来隐藏或篡改文本;在PDF文件中,可以通过修改对象流来注入恶意代码。2) 自动化工具包的设计,该工具包可以自动生成包含恶意内容的文档,并将其注入到RAG系统中,从而简化了攻击测试的过程。3) 实验评估的设计,论文选择了多个流行的数据加载器和端到端RAG系统进行测试,从而保证了实验结果的代表性。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,针对五个流行数据加载器的攻击成功率高达74.4%(基于357个场景)。在六个端到端RAG系统(包括NotebookLM和OpenAI Assistants)上的验证也显示出高成功率,证明了现有RAG系统在数据加载环节存在严重的安全漏洞,容易受到隐蔽的内容操纵攻击。

🎯 应用场景

该研究成果可应用于提升各种基于RAG的AI应用安全性,例如智能客服、文档问答系统、知识库检索等。通过加强数据加载环节的防护,可以有效防止恶意攻击者篡改知识库,保障AI系统输出信息的准确性和可靠性,避免因虚假信息带来的负面影响。

📄 摘要(原文)

Large Language Models (LLMs) have transformed human-machine interaction since ChatGPT's 2022 debut, with Retrieval-Augmented Generation (RAG) emerging as a key framework that enhances LLM outputs by integrating external knowledge. However, RAG's reliance on ingesting external documents introduces new vulnerabilities. This paper exposes a critical security gap at the data loading stage, where malicious actors can stealthily corrupt RAG pipelines by exploiting document ingestion. We propose a taxonomy of 9 knowledge-based poisoning attacks and introduce two novel threat vectors -- Content Obfuscation and Content Injection -- targeting common formats (DOCX, HTML, PDF). Using an automated toolkit implementing 19 stealthy injection techniques, we test five popular data loaders, finding a 74.4% attack success rate across 357 scenarios. We further validate these threats on six end-to-end RAG systems -- including white-box pipelines and black-box services like NotebookLM and OpenAI Assistants -- demonstrating high success rates and critical vulnerabilities that bypass filters and silently compromise output integrity. Our results emphasize the urgent need to secure the document ingestion process in RAG systems against covert content manipulations.