LLM Whisperer: An Inconspicuous Attack to Bias LLM Responses

📄 arXiv: 2406.04755v4 📥 PDF

作者: Weiran Lin, Anna Gerchanovsky, Omer Akgul, Lujo Bauer, Matt Fredrikson, Zifan Wang

分类: cs.CR, cs.AI, cs.HC, cs.LG

发布日期: 2024-06-07 (更新: 2025-02-28)


💡 一句话要点

LLM Whisperer:一种隐蔽的攻击方式,通过操纵Prompt来偏置LLM的输出。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 Prompt工程 对抗攻击 同义词替换 用户自主性 安全风险 偏见 LLM安全

📋 核心要点

  1. 现有Prompt优化服务存在被恶意利用的风险,攻击者可以通过微妙的Prompt修改来影响LLM的输出,从而产生偏见。
  2. 该论文提出一种名为“LLM Whisperer”的隐蔽攻击方法,通过在Prompt中替换同义词来操纵LLM的输出,使其倾向于特定目标概念。
  3. 实验表明,这种攻击方式产生的Prompt难以被人类察觉,但能显著提高LLM推荐目标概念的频率,并潜移默化地影响用户的注意力。

📝 摘要(中文)

大型语言模型(LLM)的有效Prompt编写既不直观又繁琐。因此,出现了优化或建议Prompt的服务。虽然这些服务可以减少用户的工作量,但它们也引入了一种风险:Prompt提供者可以巧妙地操纵Prompt,从而产生严重偏见的LLM响应。本文表明,Prompt中细微的同义词替换可以显著提高LLM提及目标概念(例如,品牌、政党、国家)的可能性(差异高达78%)。我们通过用户研究证实了我们的观察结果,表明我们对抗性扰动的Prompt:1)人类无法区分于未修改的Prompt,2)促使LLM更频繁地推荐目标概念,3)使用户更容易注意到目标概念,所有这些都不会引起怀疑。这种攻击的实用性有可能破坏用户的自主性。除其他措施外,我们建议实施警告,防止使用来自不受信任方的Prompt。

🔬 方法详解

问题定义:论文旨在解决LLM在Prompt优化服务中存在的安全漏洞问题。现有的Prompt优化服务可能被恶意利用,攻击者可以通过微妙的Prompt修改来影响LLM的输出,从而产生偏见。这种偏见可能导致用户在不知情的情况下受到操纵,损害用户自主性。现有方法缺乏对这种隐蔽攻击的防御机制。

核心思路:论文的核心思路是通过在Prompt中进行细微的同义词替换,来影响LLM对特定概念的提及概率。这种替换旨在保持Prompt的语义不变,从而避免引起用户的怀疑,但同时又能有效地引导LLM的输出。

技术框架:该攻击方法主要包含以下几个步骤:1) 选择目标概念(例如,品牌、政党、国家);2) 确定原始Prompt;3) 针对Prompt中的关键词,寻找合适的同义词替换,这些同义词的选择需要精心设计,以最大化对LLM输出的影响;4) 使用替换后的Prompt输入LLM,观察LLM是否更倾向于提及目标概念;5) 通过用户研究验证攻击的有效性和隐蔽性。

关键创新:该论文的关键创新在于发现并验证了通过细微的同义词替换,可以有效地操纵LLM的输出,使其倾向于特定目标概念。这种攻击方式具有很强的隐蔽性,难以被人类察觉,因此具有很高的潜在危害。

关键设计:论文中,同义词的选择是关键。攻击者需要选择那些在语义上与原始词语相近,但在LLM的词向量空间中与目标概念更接近的词语。此外,论文还通过用户研究来评估攻击的有效性和隐蔽性,确保替换后的Prompt不会引起用户的怀疑。

📊 实验亮点

实验结果表明,通过细微的同义词替换,可以显著提高LLM提及目标概念的可能性,最高可达78%。用户研究表明,经过对抗性扰动的Prompt与原始Prompt在人类感知上几乎没有差异,但能够显著提高LLM推荐目标概念的频率,并潜移默化地影响用户的注意力,而不会引起用户的怀疑。

🎯 应用场景

该研究揭示了LLM应用中潜在的安全风险,提醒开发者和用户在使用Prompt优化服务时保持警惕。研究成果可用于开发针对此类攻击的防御机制,例如Prompt审查工具,以确保LLM的输出公正、客观,避免用户受到不必要的操纵。此外,该研究也为LLM的安全性评估提供了新的思路。

📄 摘要(原文)

Writing effective prompts for large language models (LLM) can be unintuitive and burdensome. In response, services that optimize or suggest prompts have emerged. While such services can reduce user effort, they also introduce a risk: the prompt provider can subtly manipulate prompts to produce heavily biased LLM responses. In this work, we show that subtle synonym replacements in prompts can increase the likelihood (by a difference up to 78%) that LLMs mention a target concept (e.g., a brand, political party, nation). We substantiate our observations through a user study, showing that our adversarially perturbed prompts 1) are indistinguishable from unaltered prompts by humans, 2) push LLMs to recommend target concepts more often, and 3) make users more likely to notice target concepts, all without arousing suspicion. The practicality of this attack has the potential to undermine user autonomy. Among other measures, we recommend implementing warnings against using prompts from untrusted parties.