Which Words Matter Most in Zero-Shot Prompts?
作者: Nikta Gohari Sadr, Sangmitra Madhusudan, Hassan Sajjad, Ali Emami
分类: cs.CL
发布日期: 2025-02-05 (更新: 2025-09-29)
备注: 8 pages (excluding references)
💡 一句话要点
提出ZIP评分以量化零样本提示中各词的重要性,揭示提示工程的内在机制。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 零样本提示 提示工程 词语重要性 可解释性 大型语言模型 ZIP评分 模型性能 指令学习
📋 核心要点
- 现有方法缺乏对零样本提示中各词语重要性的量化分析,难以理解提示有效性的内在机制。
- 提出ZIP评分,通过可控的词语扰动来评估其对模型性能的影响,从而量化词语的重要性。
- 实验表明,ZIP评分在提示可解释性方面优于LIME,并揭示了词语重要性与模型性能的反相关性。
📝 摘要(中文)
尽管诸如“让我们逐步思考”之类的零样本指令提示已彻底改变了大型语言模型的性能,但一个基本问题仍未得到解答:哪些特定词语驱动了它们显著的有效性?我们引入了ZIP评分(Zero-shot Importance of Perturbation),这是第一种通过受控扰动(包括同义词替换、同义下位词替换和策略性删除)来量化指令提示中单个词语重要性的系统方法。我们对四种旗舰模型、七种广泛采用的提示和多个任务领域的分析揭示了四个关键发现:(1)存在特定于任务的词语层级结构,其中数学问题优先考虑“逐步”,而推理任务则偏爱“思考”;(2)专有模型显示出比开源替代方案更好的人类直觉对齐;(3)名词在重要性排名中占主导地位,始终代表着大多数重要词语;(4)词语重要性与模型性能成反比,表明提示在模型最吃力的地方影响最大。除了揭示这些模式外,我们还通过20个具有预定关键词的验证提示建立了第一个提示可解释性的ground-truth基准,其中ZIP达到了90%的准确率,而LIME为60%。我们的发现推进了提示科学,即研究语言如何塑造模型行为,为提示工程提供实用的见解,并为LLM中词语层面的影响提供理论理解。
🔬 方法详解
问题定义:论文旨在解决零样本提示中,哪些词语对模型性能影响最大的问题。现有方法缺乏系统性的量化分析,难以理解提示工程的内在机制,也无法有效指导提示词的选择和优化。现有方法,例如LIME,在提示词可解释性方面表现不佳。
核心思路:论文的核心思路是通过对提示中的词语进行可控的扰动,观察模型性能的变化,从而推断该词语的重要性。如果一个词语的扰动导致模型性能显著下降,则认为该词语对提示的有效性至关重要。这种方法模拟了人类对语言的理解方式,即通过改变词语来判断其含义和作用。
技术框架:整体流程如下:1. 选择一组零样本提示和相应的任务;2. 对提示中的每个词语进行扰动,包括同义词替换、同义下位词替换和删除;3. 使用扰动后的提示运行模型,并记录模型性能;4. 计算ZIP评分,即模型性能下降的程度;5. 分析ZIP评分,确定重要词语,并揭示词语重要性与模型性能之间的关系。
关键创新:论文的关键创新在于提出了ZIP评分,这是一种新的量化零样本提示中词语重要性的方法。与现有方法相比,ZIP评分更加系统、可控,并且能够提供更细粒度的分析。此外,论文还建立了第一个提示可解释性的ground-truth基准,用于评估不同方法的性能。
关键设计:ZIP评分的计算公式为:ZIP(w) = (P_original - P_perturbed(w)) / P_original,其中P_original是使用原始提示的模型性能,P_perturbed(w)是扰动词语w后的模型性能。扰动策略包括:同义词替换(使用WordNet获取同义词)、同义下位词替换(使用WordNet获取同义下位词)和删除。论文使用了多种任务领域和模型,以验证ZIP评分的有效性和泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ZIP评分在提示可解释性方面优于LIME,在ground-truth基准上达到了90%的准确率,而LIME仅为60%。此外,实验还揭示了词语重要性与模型性能的反相关性,即提示在模型表现较差的任务上影响更大。研究还发现,名词在重要性排名中占主导地位,并且专有模型比开源模型更符合人类直觉。
🎯 应用场景
该研究成果可应用于提示工程的自动化优化,帮助研究人员和开发者设计更有效的零样本提示。通过理解哪些词语对模型性能至关重要,可以减少不必要的词语,提高提示的简洁性和效率。此外,该研究还可以用于评估不同模型的提示敏感性,从而选择更适合特定任务的模型。未来,该研究或可扩展到其他类型的提示和模型,例如微调提示和多模态模型。
📄 摘要(原文)
While zero-shot instructional prompts like "Let's think step-by-step" have revolutionized Large Language Model performance, a fundamental question remains unanswered: which specific words drive their remarkable effectiveness? We introduce the ZIP score (Zero-shot Importance of Perturbation), the first systematic method to quantify individual word importance in instructional prompts through controlled perturbations including synonym replacement, co-hyponym substitution, and strategic removal. Our analysis across four flagship models, seven widely-adopted prompts, and multiple task domains reveals four key findings: (1) Task-specific word hierarchies exist where mathematical problems prioritize "step-by-step" while reasoning tasks favor "think"; (2) Proprietary models show superior alignment with human intuitions compared to open-source alternatives; (3) Nouns dominate importance rankings, consistently representing the majority of significant words; and (4) Word importance inversely correlates with model performance, indicating prompts have greatest impact where models struggle most. Beyond revealing these patterns, we establish the first ground-truth benchmark for prompt interpretability through 20 validation prompts with predetermined key words, where ZIP achieves 90% accuracy versus LIME's 60%. Our findings advance prompt science, the study of how language shapes model behavior, providing both practical insights for prompt engineering and theoretical understanding of word-level effects in LLMs.