Which Words Matter Most in Zero-Shot Prompts?

作者: Nikta Gohari Sadr, Sangmitra Madhusudan, Hassan Sajjad, Ali Emami

分类: cs.CL

发布日期: 2025-02-05 (更新: 2025-09-29)

备注: 8 pages (excluding references)

💡 一句话要点

提出ZIP评分以量化零样本提示中各词的重要性，揭示提示工程的内在机制。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 零样本提示 提示工程 词语重要性 可解释性 大型语言模型 ZIP评分 模型性能 指令学习

📋 核心要点

现有方法缺乏对零样本提示中各词语重要性的量化分析，难以理解提示有效性的内在机制。
提出ZIP评分，通过可控的词语扰动来评估其对模型性能的影响，从而量化词语的重要性。
实验表明，ZIP评分在提示可解释性方面优于LIME，并揭示了词语重要性与模型性能的反相关性。

📝 摘要（中文）

尽管诸如“让我们逐步思考”之类的零样本指令提示已彻底改变了大型语言模型的性能，但一个基本问题仍未得到解答：哪些特定词语驱动了它们显著的有效性？我们引入了ZIP评分（Zero-shot Importance of Perturbation），这是第一种通过受控扰动（包括同义词替换、同义下位词替换和策略性删除）来量化指令提示中单个词语重要性的系统方法。我们对四种旗舰模型、七种广泛采用的提示和多个任务领域的分析揭示了四个关键发现：（1）存在特定于任务的词语层级结构，其中数学问题优先考虑“逐步”，而推理任务则偏爱“思考”；（2）专有模型显示出比开源替代方案更好的人类直觉对齐；（3）名词在重要性排名中占主导地位，始终代表着大多数重要词语；（4）词语重要性与模型性能成反比，表明提示在模型最吃力的地方影响最大。除了揭示这些模式外，我们还通过20个具有预定关键词的验证提示建立了第一个提示可解释性的ground-truth基准，其中ZIP达到了90%的准确率，而LIME为60%。我们的发现推进了提示科学，即研究语言如何塑造模型行为，为提示工程提供实用的见解，并为LLM中词语层面的影响提供理论理解。

🔬 方法详解

问题定义：论文旨在解决零样本提示中，哪些词语对模型性能影响最大的问题。现有方法缺乏系统性的量化分析，难以理解提示工程的内在机制，也无法有效指导提示词的选择和优化。现有方法，例如LIME，在提示词可解释性方面表现不佳。

核心思路：论文的核心思路是通过对提示中的词语进行可控的扰动，观察模型性能的变化，从而推断该词语的重要性。如果一个词语的扰动导致模型性能显著下降，则认为该词语对提示的有效性至关重要。这种方法模拟了人类对语言的理解方式，即通过改变词语来判断其含义和作用。

技术框架：整体流程如下：1. 选择一组零样本提示和相应的任务；2. 对提示中的每个词语进行扰动，包括同义词替换、同义下位词替换和删除；3. 使用扰动后的提示运行模型，并记录模型性能；4. 计算ZIP评分，即模型性能下降的程度；5. 分析ZIP评分，确定重要词语，并揭示词语重要性与模型性能之间的关系。

关键创新：论文的关键创新在于提出了ZIP评分，这是一种新的量化零样本提示中词语重要性的方法。与现有方法相比，ZIP评分更加系统、可控，并且能够提供更细粒度的分析。此外，论文还建立了第一个提示可解释性的ground-truth基准，用于评估不同方法的性能。

关键设计：ZIP评分的计算公式为：ZIP(w) = (P_original - P_perturbed(w)) / P_original，其中P_original是使用原始提示的模型性能，P_perturbed(w)是扰动词语w后的模型性能。扰动策略包括：同义词替换（使用WordNet获取同义词）、同义下位词替换（使用WordNet获取同义下位词）和删除。论文使用了多种任务领域和模型，以验证ZIP评分的有效性和泛化能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ZIP评分在提示可解释性方面优于LIME，在ground-truth基准上达到了90%的准确率，而LIME仅为60%。此外，实验还揭示了词语重要性与模型性能的反相关性，即提示在模型表现较差的任务上影响更大。研究还发现，名词在重要性排名中占主导地位，并且专有模型比开源模型更符合人类直觉。

🎯 应用场景

该研究成果可应用于提示工程的自动化优化，帮助研究人员和开发者设计更有效的零样本提示。通过理解哪些词语对模型性能至关重要，可以减少不必要的词语，提高提示的简洁性和效率。此外，该研究还可以用于评估不同模型的提示敏感性，从而选择更适合特定任务的模型。未来，该研究或可扩展到其他类型的提示和模型，例如微调提示和多模态模型。

📄 摘要（原文）

While zero-shot instructional prompts like "Let's think step-by-step" have revolutionized Large Language Model performance, a fundamental question remains unanswered: which specific words drive their remarkable effectiveness? We introduce the ZIP score (Zero-shot Importance of Perturbation), the first systematic method to quantify individual word importance in instructional prompts through controlled perturbations including synonym replacement, co-hyponym substitution, and strategic removal. Our analysis across four flagship models, seven widely-adopted prompts, and multiple task domains reveals four key findings: (1) Task-specific word hierarchies exist where mathematical problems prioritize "step-by-step" while reasoning tasks favor "think"; (2) Proprietary models show superior alignment with human intuitions compared to open-source alternatives; (3) Nouns dominate importance rankings, consistently representing the majority of significant words; and (4) Word importance inversely correlates with model performance, indicating prompts have greatest impact where models struggle most. Beyond revealing these patterns, we establish the first ground-truth benchmark for prompt interpretability through 20 validation prompts with predetermined key words, where ZIP achieves 90% accuracy versus LIME's 60%. Our findings advance prompt science, the study of how language shapes model behavior, providing both practical insights for prompt engineering and theoretical understanding of word-level effects in LLMs.

Which Words Matter Most in Zero-Shot Prompts?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理