Sampling-aware Adversarial Attacks Against Large Language Models
作者: Tim Beyer, Yan Scholten, Leo Schwinn, Stephan Günnemann
分类: cs.LG
发布日期: 2025-07-06 (更新: 2025-10-06)
💡 一句话要点
提出采样感知对抗攻击,提升大语言模型有害响应攻击的成功率和效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 对抗攻击 采样 鲁棒性 安全性 提示优化 有害响应
📋 核心要点
- 现有对抗攻击方法忽略了大语言模型输出的随机性,导致鲁棒性评估不准确,攻击效率低下。
- 论文提出采样感知的对抗攻击方法,通过在攻击中重复采样模型输出,更有效地引诱有害响应。
- 实验表明,该方法能显著提升攻击成功率(高达37%),并提高攻击效率(高达两个数量级)。
📝 摘要(中文)
为了保证大规模部署的大语言模型(LLMs)的安全性和鲁棒性,准确评估其对抗鲁棒性至关重要。现有的对抗攻击通常针对单点贪婪生成中的有害响应,忽略了LLMs固有的随机性,并高估了鲁棒性。我们表明,为了引出有害响应,在攻击过程中重复采样模型输出可以补充提示优化,并作为一种强大而有效的攻击向量。通过将攻击视为优化和采样之间的资源分配问题,我们确定了计算最优的权衡,并表明将采样集成到现有攻击中可将成功率提高高达37%,并将效率提高高达两个数量级。我们进一步分析了对抗攻击期间输出有害性分布的演变,发现许多常见的优化策略对输出有害性几乎没有影响。最后,我们引入了一种基于熵最大化的无标签概念验证目标,展示了我们的采样感知视角如何实现新的优化目标。总的来说,我们的发现确立了采样在攻击中的重要性,从而准确评估和加强大规模LLM的安全性。
🔬 方法详解
问题定义:现有针对大语言模型的对抗攻击主要集中在单点贪婪生成上,即每次只生成一个输出,并基于该输出来优化提示。这种方法忽略了LLM的随机性,可能导致对模型鲁棒性的高估。此外,现有方法在引诱有害响应方面的效率较低,需要大量的计算资源。
核心思路:论文的核心思路是将采样纳入对抗攻击流程中。通过多次采样LLM的输出,可以更全面地评估提示的有效性,并提高引诱有害响应的概率。论文将攻击过程建模为优化和采样之间的资源分配问题,旨在找到计算最优的权衡。
技术框架:该方法的核心在于将采样步骤整合到现有的对抗攻击框架中。具体流程如下:1) 初始化一个提示;2) 使用该提示多次采样LLM的输出;3) 根据采样结果评估提示的有害性;4) 基于评估结果优化提示;5) 重复步骤2-4,直到达到停止条件。论文还探索了不同的采样策略和优化目标。
关键创新:该方法最重要的创新点在于强调了采样在对抗攻击中的重要性。通过将采样纳入攻击流程,可以更准确地评估LLM的鲁棒性,并更有效地引诱有害响应。此外,论文还提出了一个基于熵最大化的无标签优化目标,进一步提升了攻击效果。
关键设计:论文的关键设计包括:1) 资源分配策略:如何在优化和采样之间分配计算资源,以达到最佳的攻击效果?论文通过实验确定了计算最优的权衡。2) 采样策略:如何选择采样次数和采样方法?论文探索了不同的采样策略,并发现重复采样可以显著提升攻击成功率。3) 优化目标:如何定义提示的有害性?论文探索了不同的优化目标,包括基于有害性标签的监督学习和基于熵最大化的无监督学习。
🖼️ 关键图片
📊 实验亮点
实验结果表明,将采样集成到现有攻击中可将成功率提高高达37%,并将效率提高高达两个数量级。此外,论文还发现许多常见的优化策略对输出有害性几乎没有影响,这表明需要重新审视现有的对抗攻击方法。
🎯 应用场景
该研究成果可应用于大语言模型的安全评估和防御。通过使用采样感知的对抗攻击,可以更准确地评估LLM的鲁棒性,并发现潜在的安全漏洞。此外,该方法还可以用于开发更有效的防御机制,例如对抗训练和输入过滤。
📄 摘要(原文)
To guarantee safe and robust deployment of large language models (LLMs) at scale, it is critical to accurately assess their adversarial robustness. Existing adversarial attacks typically target harmful responses in single-point greedy generations, overlooking the inherently stochastic nature of LLMs and overestimating robustness. We show that for the goal of eliciting harmful responses, repeated sampling of model outputs during the attack complements prompt optimization and serves as a strong and efficient attack vector. By casting attacks as a resource allocation problem between optimization and sampling, we determine compute-optimal trade-offs and show that integrating sampling into existing attacks boosts success rates by up to 37\% and improves efficiency by up to two orders of magnitude. We further analyze how distributions of output harmfulness evolve during an adversarial attack, discovering that many common optimization strategies have little effect on output harmfulness. Finally, we introduce a label-free proof-of-concept objective based on entropy maximization, demonstrating how our sampling-aware perspective enables new optimization targets. Overall, our findings establish the importance of sampling in attacks to accurately assess and strengthen LLM safety at scale.