StruPhantom: Evolutionary Injection Attacks on Black-Box Tabular Agents Powered by Large Language Models
作者: Yang Feng, Xudong Pan
分类: cs.CR, cs.AI
发布日期: 2025-04-14
备注: Work in Progress
💡 一句话要点
StruPhantom:针对黑盒表格代理的进化注入攻击,利用大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM安全 Prompt注入攻击 表格代理 进化优化 蒙特卡洛树搜索
📋 核心要点
- 现有表格代理依赖LLM,但缺乏针对结构化数据注入攻击的有效防御机制,攻击者难以绕过格式和规则限制。
- StruPhantom通过进化优化过程,利用受约束的蒙特卡洛树搜索和离题评估器,持续改进攻击载荷,突破结构化数据限制。
- 实验表明,StruPhantom在多种LLM代理和真实平台中,成功率显著高于基线,能有效注入恶意链接或代码。
📝 摘要(中文)
随着由大型语言模型(LLM)驱动的自主代理在处理表格数据的商业应用中日益普及,即表格代理,LLM的prompt注入攻击漏洞日益突出。然而,表格代理对攻击载荷施加严格的数据格式和预定义规则,使得攻击难以奏效,除非代理能够导航多层结构化数据以整合载荷。为了解决这一挑战,我们提出了一种名为StruPhantom的新型攻击,专门针对黑盒LLM驱动的表格代理。我们的攻击设计了一种进化优化程序,通过提出的受约束的蒙特卡洛树搜索(MCTS)和离题评估器不断改进攻击载荷。StruPhantom有助于系统地探索和利用目标应用程序的弱点,以实现目标劫持。我们的评估验证了StruPhantom在各种基于LLM的代理(包括真实平台上的代理)和攻击场景中的有效性。我们的攻击在强制应用程序响应包含网络钓鱼链接或恶意代码方面的成功率比基线高出50%以上。
🔬 方法详解
问题定义:论文旨在解决黑盒LLM驱动的表格代理面临的结构化数据注入攻击问题。现有方法难以绕过表格代理对输入数据格式和规则的严格限制,导致传统的prompt注入攻击效果不佳。攻击者需要找到一种方法,能够巧妙地构造符合格式要求的payload,并使其能够穿透多层结构化数据,最终影响LLM的决策。
核心思路:StruPhantom的核心思路是利用进化优化算法,自动搜索能够绕过表格代理防御机制的恶意payload。通过不断地迭代和改进,逐步逼近能够成功劫持目标应用程序的payload。该方法无需了解目标代理的内部结构和实现细节,属于黑盒攻击。
技术框架:StruPhantom的整体框架包含以下几个主要模块: 1. 初始化:生成初始的攻击payload集合。 2. 进化优化:使用受约束的蒙特卡洛树搜索(Constrained Monte Carlo Tree Search, CMCTS)来探索payload空间,并根据评估结果选择优秀的payload进行变异和交叉。 3. 离题评估器:评估payload是否能够成功地将LLM的注意力从原始任务转移到攻击者的目标上。该评估器用于指导进化优化过程,使其朝着有利于攻击的方向发展。 4. 目标代理:黑盒目标代理,接收payload并产生响应。 5. 终止条件:当达到预设的迭代次数或攻击成功率时,停止进化优化过程。
关键创新:StruPhantom的关键创新在于: 1. 受约束的蒙特卡洛树搜索(CMCTS):针对表格代理的结构化数据特点,设计了约束条件,确保生成的payload符合格式要求。 2. 离题评估器:用于评估payload是否能够成功地将LLM的注意力转移到攻击者的目标上,从而实现目标劫持。
关键设计: 1. CMCTS的约束条件:根据目标表格代理的数据格式和规则,设置约束条件,例如数据类型、取值范围、长度限制等。 2. 离题评估器的设计:可以使用基于规则的方法、基于机器学习的方法或基于人工评估的方法来设计离题评估器。具体选择取决于目标应用程序的特点和攻击者的资源。
🖼️ 关键图片
📊 实验亮点
实验结果表明,StruPhantom在各种LLM代理和真实平台中,成功率显著高于基线方法。例如,在强制应用程序响应包含网络钓鱼链接或恶意代码的场景中,StruPhantom的成功率比基线方法高出50%以上。这些结果验证了StruPhantom在攻击黑盒表格代理方面的有效性。
🎯 应用场景
StruPhantom的研究成果可应用于评估和增强各种基于LLM的表格代理的安全性,例如金融风控、客户服务、数据分析等领域。通过模拟真实攻击场景,帮助开发者发现潜在的安全漏洞,并采取相应的防御措施。该研究还有助于提高人们对LLM安全性的认识,促进更安全可靠的AI应用开发。
📄 摘要(原文)
The proliferation of autonomous agents powered by large language models (LLMs) has revolutionized popular business applications dealing with tabular data, i.e., tabular agents. Although LLMs are observed to be vulnerable against prompt injection attacks from external data sources, tabular agents impose strict data formats and predefined rules on the attacker's payload, which are ineffective unless the agent navigates multiple layers of structural data to incorporate the payload. To address the challenge, we present a novel attack termed StruPhantom which specifically targets black-box LLM-powered tabular agents. Our attack designs an evolutionary optimization procedure which continually refines attack payloads via the proposed constrained Monte Carlo Tree Search augmented by an off-topic evaluator. StruPhantom helps systematically explore and exploit the weaknesses of target applications to achieve goal hijacking. Our evaluation validates the effectiveness of StruPhantom across various LLM-based agents, including those on real-world platforms, and attack scenarios. Our attack achieves over 50% higher success rates than baselines in enforcing the application's response to contain phishing links or malicious codes.