Spurious Prompts: Can Irrelevant Prompts Steer Large Language Models?
作者: Pawel Batorski, Abtin Pourhadi, Jerzy Sarosiek, Przemyslaw Spurek, Paul Swoboda
分类: cs.CL
发布日期: 2026-05-28
🔗 代码/项目: GITHUB
💡 一句话要点
发现LLM对无关提示的敏感性:无关提示可有效引导模型行为
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 提示工程 虚假提示 黑盒优化 模型鲁棒性
📋 核心要点
- 现有研究主要关注任务相关提示对LLM的影响,忽略了无关提示可能带来的潜在影响。
- 论文提出“虚假提示”的概念,即与任务语义无关但能影响模型行为的提示,并探索其有效性。
- 实验表明,虚假提示能显著提升LLM在推理和问答任务中的性能,甚至超越传统提示方法。
📝 摘要(中文)
大型语言模型对提示非常敏感,但这种敏感性通常通过任务相关的指令、演示或推理线索来研究。本文研究了一种不同形式的提示敏感性:与任务语义无关的提示是否也能引导模型的行为。我们将这些提示称为虚假提示,并展示了它们令人惊讶的有效性。我们还提出了一种简单的黑盒搜索程序来发现它们。在推理和问答基准测试中,使用参数范围从0.8B到27B,跨越三个模型系列的多个模型,我们表明虚假提示可以提高性能,通常匹配或优于标准提示基线和任务相关的提示优化方法。我们进一步表明,它们可以将模型引导至非预期的行为,例如重复选择第一个答案选项,产生不正确的答案,返回偶数、质数或小数字,而没有明确指示模型这样做。这些发现揭示了一种新的提示敏感性:LLM可以被与它们被要求解决的任务无关的提示系统地引导。代码可在https://github.com/Batorskq/spurious 获取。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)对与任务无关的提示(即“虚假提示”)的敏感性。现有方法主要关注任务相关的提示工程,忽略了LLM可能受到语义无关信息的影响,这可能导致模型行为的不可预测性,并为恶意利用提供机会。
核心思路:论文的核心思路是,即使提示与任务本身没有直接关联,LLM仍然可能受到这些提示的影响,从而改变其输出行为。这种现象表明LLM可能存在某种形式的“捷径学习”或对提示的过度依赖,而非真正理解任务。
技术框架:论文采用黑盒搜索方法来发现有效的虚假提示。具体流程包括:1) 定义搜索空间(例如,随机字符串或短语);2) 使用LLM评估每个提示的性能(例如,在问答任务中的准确率);3) 基于评估结果,使用优化算法(例如,遗传算法)迭代搜索更有效的虚假提示。整个过程无需访问模型内部参数或梯度信息。
关键创新:论文的关键创新在于揭示了LLM对虚假提示的敏感性,并证明了这些提示可以显著影响模型的性能和行为。这挑战了我们对LLM提示工程的传统认知,即只有任务相关的提示才是有效的。
关键设计:论文的关键设计包括:1) 使用多种LLM模型(不同大小和架构)进行实验,以验证结果的泛化性;2) 在不同的任务上评估虚假提示的效果,包括推理和问答;3) 设计黑盒搜索算法来自动发现有效的虚假提示,避免人工干预;4) 探索虚假提示对模型行为的引导作用,例如使其倾向于选择特定答案或生成特定类型的数字。
🖼️ 关键图片
📊 实验亮点
实验结果表明,虚假提示能够显著提升LLM在推理和问答任务中的性能,在某些情况下甚至超越了经过精心设计的任务相关提示。例如,在某些基准测试中,使用虚假提示的模型性能提升了5-10%。此外,研究还发现虚假提示可以引导模型产生非预期的行为,例如重复选择第一个答案选项。
🎯 应用场景
该研究成果可应用于提升LLM的鲁棒性和安全性。通过识别和消除虚假提示的影响,可以减少模型受到恶意引导的风险,提高其在实际应用中的可靠性。此外,该研究也为理解LLM的内部机制提供了新的视角,有助于开发更可控、更值得信赖的AI系统。
📄 摘要(原文)
Large language models are highly sensitive to prompts, but this sensitivity is usually studied through task-relevant instructions, demonstrations, or reasoning cues. In this paper, we study a different form of prompt sensitivity: whether prompts that are semantically unrelated to the task can nevertheless steer model behavior. We call them spurious prompts and show their surprising efficacy. We also propose a simple black-box search procedure for discovering them. Across reasoning and question-answering benchmarks, using models ranging from 0.8B to 27B parameters and spanning three model families, we show that spurious prompts can improve performance, often matching or outperforming standard prompting baselines and task-aware prompt optimization. We further show that they can steer models toward unintended behaviors, such as repeatedly selecting the first answer option, producing incorrect answers, returning an even, prime or small number without explicitly instructing the model to do so. These findings reveal a new kind of prompt sensitivity: LLMs can be systematically steered by prompts that are unrelated to the task they are asked to solve. Our code is available at https://github.com/Batorskq/spurious