PISmith: Reinforcement Learning-based Red Teaming for Prompt Injection Defenses
作者: Chenlong Yin, Runpeng Geng, Yanting Wang, Jinyuan Jia
分类: cs.LG, cs.CR
发布日期: 2026-03-13
备注: 26 pages, 3 figures
🔗 代码/项目: GITHUB
💡 一句话要点
PISmith:基于强化学习的提示注入防御红队评估框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 提示注入 强化学习 红队评估 LLM安全 自适应攻击
📋 核心要点
- 现有提示注入防御方法缺乏对自适应攻击的充分评估,可能导致安全风险被低估。
- PISmith利用强化学习训练攻击LLM,在黑盒环境中优化注入提示,系统评估防御措施的有效性。
- 实验表明,现有防御对自适应攻击仍然脆弱,PISmith在多个基准测试中优于其他攻击方法。
📝 摘要(中文)
提示注入对现实世界的LLM应用,特别是自主代理,构成了严重的安全风险。尽管已经提出了许多防御措施,但它们对自适应攻击的鲁棒性评估仍然不足,可能造成虚假的安全感。本文提出了PISmith,一个基于强化学习(RL)的红队框架,通过训练一个攻击LLM来优化注入的提示,从而系统地评估现有的提示注入防御,该过程在一个实际的黑盒环境中进行,攻击者只能查询受防御的LLM并观察其输出。研究发现,由于极端的奖励稀疏性,直接应用标准GRPO攻击强大的防御会导致次优性能——大多数生成的注入提示被防御阻止,导致策略的熵在发现有效的攻击策略之前崩溃,而罕见的成功无法被有效学习。为此,引入了自适应熵正则化和动态优势加权,以维持探索并放大从稀缺成功中学习。在13个基准上的广泛评估表明,最先进的提示注入防御仍然容易受到自适应攻击。还将PISmith与静态、基于搜索和基于RL的攻击类别中的7个基线进行了比较,表明PISmith始终实现最高的攻击成功率。此外,PISmith在InjecAgent和AgentDojo上的代理设置中,针对开源和闭源LLM(例如,GPT-4o-mini和GPT-5-nano)都取得了强大的性能。代码可在https://github.com/albert-y1n/PISmith获得。
🔬 方法详解
问题定义:论文旨在解决现有提示注入防御方法在面对自适应攻击时鲁棒性不足的问题。现有方法难以有效评估防御措施的真实性能,可能导致开发者产生虚假的安全感。攻击者可以通过精心设计的提示绕过防御,对LLM应用造成潜在的安全威胁。
核心思路:论文的核心思路是利用强化学习训练一个攻击LLM,使其能够自动生成并优化注入提示,从而有效地评估现有防御措施的鲁棒性。通过在黑盒环境中进行攻击,模拟真实场景下的攻击行为,更准确地评估防御的有效性。
技术框架:PISmith框架包含一个攻击LLM(基于策略梯度强化学习训练)和一个受防御的LLM。攻击LLM生成注入提示,受防御的LLM处理包含注入提示的输入并产生输出。根据输出判断攻击是否成功,并计算奖励信号反馈给攻击LLM,用于更新策略。框架通过迭代训练,使攻击LLM能够生成更有效的注入提示。
关键创新:论文的关键创新在于提出了自适应熵正则化和动态优势加权方法,以解决强化学习训练过程中奖励稀疏的问题。自适应熵正则化能够维持策略的探索能力,避免过早收敛到次优解。动态优势加权能够放大从稀缺成功案例中学习的效果,提高训练效率。
关键设计:PISmith使用GRPO(Generalized Proximal Policy Optimization)作为基础强化学习算法。自适应熵正则化通过动态调整熵正则化系数,平衡探索和利用。动态优势加权根据攻击成功与否,对优势函数进行加权,提高成功案例的权重。具体参数设置和网络结构细节未在摘要中详细说明,可能需要在论文全文中查找。
🖼️ 关键图片
📊 实验亮点
PISmith在13个基准测试中取得了最高的攻击成功率,优于其他静态、基于搜索和基于RL的攻击方法。在InjecAgent和AgentDojo等代理环境中,PISmith针对开源和闭源LLM(如GPT-4o-mini和GPT-5-nano)都表现出强大的攻击性能,证明了其在复杂场景下的有效性。
🎯 应用场景
PISmith可用于评估和提升LLM应用的安全性,帮助开发者发现并修复潜在的提示注入漏洞。该框架可应用于各种LLM应用场景,包括聊天机器人、智能助手和自主代理等。通过持续的红队评估,可以提高LLM应用对恶意攻击的防御能力,保障用户数据和系统安全。
📄 摘要(原文)
Prompt injection poses serious security risks to real-world LLM applications, particularly autonomous agents. Although many defenses have been proposed, their robustness against adaptive attacks remains insufficiently evaluated, potentially creating a false sense of security. In this work, we propose PISmith, a reinforcement learning (RL)-based red-teaming framework that systematically assesses existing prompt-injection defenses by training an attack LLM to optimize injected prompts in a practical black-box setting, where the attacker can only query the defended LLM and observe its outputs. We find that directly applying standard GRPO to attack strong defenses leads to sub-optimal performance due to extreme reward sparsity -- most generated injected prompts are blocked by the defense, causing the policy's entropy to collapse before discovering effective attack strategies, while the rare successes cannot be learned effectively. In response, we introduce adaptive entropy regularization and dynamic advantage weighting to sustain exploration and amplify learning from scarce successes. Extensive evaluation on 13 benchmarks demonstrates that state-of-the-art prompt injection defenses remain vulnerable to adaptive attacks. We also compare PISmith with 7 baselines across static, search-based, and RL-based attack categories, showing that PISmith consistently achieves the highest attack success rates. Furthermore, PISmith achieves strong performance in agentic settings on InjecAgent and AgentDojo against both open-source and closed-source LLMs (e.g., GPT-4o-mini and GPT-5-nano). Our code is available at https://github.com/albert-y1n/PISmith.