Toward Trustworthy Agentic AI: A Multimodal Framework for Preventing Prompt Injection Attacks
作者: Toqeer Ali Syed, Mishal Ateeq Almutairi, Mahmoud Abdel Moaty
分类: cs.CR, cs.AI
发布日期: 2025-12-29
备注: It is accepted in a conference paper, ICCA 2025 in Bahrain on 21 to 23 December
💡 一句话要点
提出跨Agent多模态溯源防御框架,防范Agentic AI中的提示注入攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agentic AI 提示注入攻击 多模态防御 溯源跟踪 信任框架
📋 核心要点
- Agentic AI系统易受多模态提示注入攻击,恶意指令通过多种模态传播,导致系统行为异常和安全风险。
- 提出跨Agent多模态溯源防御框架,通过清理提示和验证输出来确保Agent间通信的安全性,并使用溯源账本跟踪信任级别。
- 实验结果表明,该框架显著提高了多模态注入检测的准确性,减少了跨Agent的信任泄漏,并稳定了Agentic执行路径。
📝 摘要(中文)
大型语言模型(LLMs)、视觉-语言模型(VLMs)以及LangChain和GraphChain等新型Agentic AI系统,使得能够进行推理、规划和对话的强大自主系统成为可能。然而,这种Agentic环境增加了多模态提示注入(PI)攻击发生的概率,其中隐藏或恶意指令通过文本、图片、元数据或Agent间的消息传播,可能导致意外行为、违反策略或状态损坏。为了降低这些风险,本文提出了一种跨Agent多模态溯源感知防御框架,其中所有提示(无论是用户生成的还是上游Agent生成的)都会被清理,并且LLM生成的所有输出在发送到下游节点之前都会被独立验证。该框架包含一个文本清理Agent、视觉清理Agent和一个输出验证Agent,所有这些Agent都由一个溯源账本协调,该账本保存了整个Agent网络中模态、来源和信任级别的元数据。这种架构确保Agent间的通信遵守明确的信任框架,从而防止注入的指令在LangChain或GraphChain风格的工作流程中传播。实验评估表明,多模态注入检测的准确性显著提高,跨Agent的信任泄漏最小化,并且Agentic执行路径变得稳定。该框架将溯源跟踪和验证的概念扩展到多Agent编排,从而增强了安全、可理解和可靠的Agentic AI系统的建立。
🔬 方法详解
问题定义:论文旨在解决Agentic AI系统中日益严重的多模态提示注入攻击问题。现有的Agentic AI系统,如基于LangChain或GraphChain的系统,容易受到恶意用户或Agent通过文本、图像等多种模态注入的指令攻击,导致系统行为偏离预期,甚至造成安全漏洞。现有的防御方法往往只关注单一模态的攻击,无法有效应对复杂的多模态攻击场景。
核心思路:论文的核心思路是建立一个跨Agent、多模态、溯源感知的防御框架,对所有Agent之间的通信内容进行清理和验证,并记录每个Agent的信任级别和数据来源,从而防止恶意指令的传播。通过在Agent之间建立明确的信任框架,确保只有经过验证的指令才能被执行。
技术框架:该框架包含以下主要模块:1) 文本清理Agent:负责清理文本模态的提示,移除潜在的恶意指令。2) 视觉清理Agent:负责清理图像模态的提示,例如检测并移除隐藏在图像中的恶意水印或编码信息。3) 输出验证Agent:负责验证LLM生成的输出,确保其符合预期的行为和策略。4) 溯源账本:记录所有Agent的元数据,包括模态、来源和信任级别,用于跟踪数据流和识别潜在的攻击源。整个流程是,所有Agent的输入都会经过清理Agent的处理,LLM的输出会经过验证Agent的验证,并且所有操作都会记录在溯源账本中。
关键创新:该论文最重要的创新点在于将溯源跟踪和验证的概念扩展到多Agent编排中,提出了一个跨Agent的多模态防御框架。与现有的单模态防御方法相比,该框架能够更有效地应对复杂的多模态提示注入攻击。此外,该框架通过建立明确的信任框架,增强了Agentic AI系统的安全性和可信度。
关键设计:论文中没有详细描述具体的参数设置、损失函数或网络结构等技术细节。但是,可以推断,文本清理Agent可能使用基于规则或机器学习的方法来检测和移除恶意指令;视觉清理Agent可能使用图像处理技术来检测和移除隐藏在图像中的信息;输出验证Agent可能使用基于规则或机器学习的方法来评估LLM输出的安全性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架显著提高了多模态注入检测的准确性,并减少了跨Agent的信任泄漏。具体而言,该框架能够有效地检测和阻止恶意指令的传播,从而稳定Agentic执行路径。这些结果表明,该框架在防范多模态提示注入攻击方面具有显著的优势。
🎯 应用场景
该研究成果可应用于各种Agentic AI系统,例如智能客服、自动化流程管理、智能家居等。通过部署该框架,可以有效防止恶意用户或Agent通过提示注入攻击来控制系统,从而提高系统的安全性、可靠性和可信度。未来,该框架可以进一步扩展到更多的模态和Agent类型,以应对更加复杂的攻击场景。
📄 摘要(原文)
Powerful autonomous systems, which reason, plan, and converse using and between numerous tools and agents, are made possible by Large Language Models (LLMs), Vision-Language Models (VLMs), and new agentic AI systems, like LangChain and GraphChain. Nevertheless, this agentic environment increases the probability of the occurrence of multimodal prompt injection (PI) attacks, in which concealed or malicious instructions carried in text, pictures, metadata, or agent-to-agent messages may spread throughout the graph and lead to unintended behavior, a breach of policy, or corruption of state. In order to mitigate these risks, this paper suggests a Cross-Agent Multimodal Provenanc- Aware Defense Framework whereby all the prompts, either user-generated or produced by upstream agents, are sanitized and all the outputs generated by an LLM are verified independently before being sent to downstream nodes. This framework contains a Text sanitizer agent, visual sanitizer agent, and output validator agent all coordinated by a provenance ledger, which keeps metadata of modality, source, and trust level throughout the entire agent network. This architecture makes sure that agent-to-agent communication abides by clear trust frames such such that injected instructions are not propagated down LangChain or GraphChain-style-workflows. The experimental assessments show that multimodal injection detection accuracy is significantly enhanced, and the cross-agent trust leakage is minimized, as well as, agentic execution pathways become stable. The framework, which expands the concept of provenance tracking and validation to the multi-agent orchestration, enhances the establishment of secure, understandable and reliable agentic AI systems.