Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper)
作者: Om Dobariya, Akhil Kumar
分类: cs.CL, cs.AI, cs.LG, cs.NE, stat.ME
发布日期: 2025-10-06
备注: 5 pages, 3 tables; includes Limitations and Ethical Considerations sections; short paper under submission to Findings of ACL 2025
💡 一句话要点
探究提示语礼貌程度对LLM准确率的影响:不礼貌提示效果更佳
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 提示工程 礼貌程度 语气分析 人机交互
📋 核心要点
- 现有研究对提示语措辞影响LLM性能有所关注,但对礼貌程度和语气的作用研究不足。
- 该研究通过构建不同礼貌程度的提示语数据集,探究其对LLM在多项选择题上的准确率的影响。
- 实验结果表明,与预期相反,不礼貌的提示语在ChatGPT 4o上的表现优于礼貌的提示语。
📝 摘要(中文)
自然语言提示语的措辞已被证明会影响大型语言模型(LLM)的性能,但礼貌程度和语气的作用仍未得到充分探索。本研究调查了不同程度的提示语礼貌程度如何影响模型在多项选择题上的准确性。我们创建了一个包含50个基础问题的数据集,涵盖数学、科学和历史,每个问题被改写成五种语气变体:非常礼貌、礼貌、中性、粗鲁和非常粗鲁,从而产生了250个独特的提示语。使用ChatGPT 4o,我们评估了这些条件下的响应,并应用配对样本t检验来评估统计显著性。与预期相反,不礼貌的提示语始终优于礼貌的提示语,准确率从非常礼貌的提示语的80.8%到非常粗鲁的提示语的84.8%不等。这些发现与早期将粗鲁与较差结果相关联的研究不同,表明较新的LLM可能对语气变化做出不同的反应。我们的结果强调了研究提示语的语用方面的重要性,并提出了关于人机交互的社会层面的更广泛的问题。
🔬 方法详解
问题定义:论文旨在研究提示语的礼貌程度如何影响大型语言模型(LLM)的准确性。现有方法主要关注提示语的内容和结构,而忽略了礼貌程度这种语用因素可能带来的影响。之前的研究结果表明,粗鲁的提示语会导致更差的结果,但这一结论是否适用于最新的LLM仍需验证。
核心思路:论文的核心思路是通过系统性地改变提示语的礼貌程度,并观察LLM在回答问题时的准确性变化。通过对比不同礼貌程度的提示语,可以揭示LLM对语气的敏感程度,并为提示语工程提供新的视角。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建包含50个基础问题的数据集,涵盖数学、科学和历史等领域;2) 将每个问题改写成五种不同礼貌程度的提示语:非常礼貌、礼貌、中性、粗鲁和非常粗鲁;3) 使用ChatGPT 4o作为评估对象,对每个提示语进行测试并记录模型的回答;4) 使用配对样本t检验对不同礼貌程度提示语的准确率进行统计分析,以确定是否存在显著差异。
关键创新:该研究的关键创新在于关注了提示语的礼貌程度这一此前被忽视的语用因素,并揭示了其对LLM性能的潜在影响。与之前的研究不同,该研究发现不礼貌的提示语反而能够提高LLM的准确性,这表明最新的LLM可能对语气变化具有不同的反应。
关键设计:在数据集构建方面,论文选择了涵盖不同领域的50个基础问题,以保证研究结果的泛化性。在提示语改写方面,论文采用了五种不同礼貌程度的变体,以更细粒度地探究礼貌程度对LLM性能的影响。在统计分析方面,论文使用了配对样本t检验,以评估不同礼貌程度提示语之间的准确率差异是否具有统计显著性。
📊 实验亮点
实验结果显示,在ChatGPT 4o上,不礼貌的提示语(粗鲁和非常粗鲁)的准确率高于礼貌的提示语(礼貌和非常礼貌)。非常粗鲁的提示语的准确率达到84.8%,而非常礼貌的提示语的准确率仅为80.8%。这一结果与之前的研究结论相反,表明最新的LLM可能对语气变化具有不同的反应。
🎯 应用场景
该研究的成果可应用于提示工程领域,帮助开发者设计更有效的提示语,提高LLM在各种任务中的性能。此外,该研究也为理解人机交互的社会维度提供了新的视角,有助于开发更人性化、更符合用户期望的AI系统。未来的研究可以进一步探索不同文化背景下礼貌程度对LLM性能的影响。
📄 摘要(原文)
The wording of natural language prompts has been shown to influence the performance of large language models (LLMs), yet the role of politeness and tone remains underexplored. In this study, we investigate how varying levels of prompt politeness affect model accuracy on multiple-choice questions. We created a dataset of 50 base questions spanning mathematics, science, and history, each rewritten into five tone variants: Very Polite, Polite, Neutral, Rude, and Very Rude, yielding 250 unique prompts. Using ChatGPT 4o, we evaluated responses across these conditions and applied paired sample t-tests to assess statistical significance. Contrary to expectations, impolite prompts consistently outperformed polite ones, with accuracy ranging from 80.8% for Very Polite prompts to 84.8% for Very Rude prompts. These findings differ from earlier studies that associated rudeness with poorer outcomes, suggesting that newer LLMs may respond differently to tonal variation. Our results highlight the importance of studying pragmatic aspects of prompting and raise broader questions about the social dimensions of human-AI interaction.