Does Tone Change the Answer? Evaluating Prompt Politeness Effects on Modern LLMs: GPT, Gemini, LLaMA

📄 arXiv: 2512.12812v1 📥 PDF

作者: Hanyu Cai, Binqi Shen, Lier Jin, Lan Hu, Xiaojing Fan

分类: cs.CL, cs.AI

发布日期: 2025-12-14


💡 一句话要点

评估提示语礼貌程度对大型语言模型的影响:GPT、Gemini、LLaMA

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 提示工程 语调敏感性 人机交互 模型评估

📋 核心要点

  1. 现有研究对提示语中语调和礼貌等语用元素对LLM性能的影响关注不足,尤其缺乏跨模型系列的系统性评估。
  2. 该研究提出一个系统评估框架,通过改变提示语的礼貌程度(非常友好、中性、非常粗鲁)来考察LLM的准确性。
  3. 实验结果表明,语调敏感性与模型和领域相关,中性或友好提示通常优于粗鲁提示,但在人文领域的部分任务中,粗鲁语调会降低GPT和Llama的准确性。

📝 摘要(中文)

提示工程已成为影响大型语言模型(LLM)性能的关键因素,但语言语调和礼貌等语用元素的影响仍未得到充分探索,尤其是在不同的模型系列中。本文提出了一个系统的评估框架,以检验交互语调如何影响模型的准确性,并将其应用于三个最新发布且广泛可用的LLM:GPT-4o mini (OpenAI)、Gemini 2.0 Flash (Google DeepMind) 和 Llama 4 Scout (Meta)。使用MMMLU基准,我们评估了模型在非常友好、中性和非常粗鲁的提示变体下,在涵盖STEM和人文领域的六个任务中的性能,并通过统计显著性检验分析了成对的准确性差异。结果表明,语调敏感性既依赖于模型,也依赖于领域。中性或非常友好的提示通常比非常粗鲁的提示产生更高的准确性,但统计上显著的影响仅出现在部分人文任务中,其中粗鲁的语调降低了GPT和Llama的准确性,而Gemini在比较上对语调不敏感。当性能在每个领域内的任务中聚合时,语调效应会减弱,并且在很大程度上失去统计显著性。与早期研究相比,这些发现表明数据集的规模和覆盖范围在很大程度上影响了语调效应的检测。总的来说,我们的研究表明,虽然交互语调在特定的解释环境中可能很重要,但现代LLM在典型的混合领域使用中对语调变化具有广泛的鲁棒性,为实际部署中的提示设计和模型选择提供了实践指导。

🔬 方法详解

问题定义:论文旨在研究提示语的语调(礼貌程度)对大型语言模型(LLM)性能的影响。现有方法主要关注提示语的内容和结构,而忽略了语调这种微妙的语用因素。这种忽略可能导致LLM在不同应用场景下的性能不稳定,尤其是在需要人机交互的场景中。

核心思路:论文的核心思路是通过系统性地改变提示语的礼貌程度,并观察LLM在不同任务上的表现,从而量化语调对模型准确性的影响。通过对比不同模型在不同语调下的表现,可以揭示模型对语调的敏感程度,并为提示工程提供指导。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择MMMLU基准测试数据集,涵盖STEM和人文领域;2) 设计三种不同礼貌程度的提示语变体:非常友好、中性和非常粗鲁;3) 使用选定的LLM(GPT-4o mini, Gemini 2.0 Flash, Llama 4 Scout)对每个提示语变体进行推理;4) 评估模型在不同提示语下的准确性,并进行统计显著性检验,分析成对的准确性差异。

关键创新:该研究的关键创新在于:1) 系统性地研究了提示语语调对LLM性能的影响,填补了该领域的研究空白;2) 提出了一个可复用的评估框架,可以用于评估不同LLM对语调的敏感程度;3) 揭示了语调敏感性与模型和领域相关,为提示工程和模型选择提供了新的视角。

关键设计:论文的关键设计包括:1) 提示语变体的设计,确保三种语调具有明确的区分度,同时保持内容的一致性;2) 使用MMMLU基准测试数据集,保证了评估的全面性和可比性;3) 采用统计显著性检验,确保了结果的可靠性。

📊 实验亮点

实验结果表明,语调敏感性与模型和领域相关。在人文领域的部分任务中,粗鲁的语调会显著降低GPT和Llama的准确性,而Gemini相对不敏感。总体而言,中性或友好的提示通常优于粗鲁的提示。数据集规模和覆盖范围会影响语调效应的检测。

🎯 应用场景

该研究成果可应用于提升人机交互系统的用户体验。通过了解LLM对不同语调的敏感性,可以设计更友好的提示语,提高模型在客户服务、教育辅导等领域的应用效果。此外,该研究也为模型开发者提供了改进方向,例如增强模型对语调变化的鲁棒性。

📄 摘要(原文)

Prompt engineering has emerged as a critical factor influencing large language model (LLM) performance, yet the impact of pragmatic elements such as linguistic tone and politeness remains underexplored, particularly across different model families. In this work, we propose a systematic evaluation framework to examine how interaction tone affects model accuracy and apply it to three recently released and widely available LLMs: GPT-4o mini (OpenAI), Gemini 2.0 Flash (Google DeepMind), and Llama 4 Scout (Meta). Using the MMMLU benchmark, we evaluate model performance under Very Friendly, Neutral, and Very Rude prompt variants across six tasks spanning STEM and Humanities domains, and analyze pairwise accuracy differences with statistical significance testing. Our results show that tone sensitivity is both model-dependent and domain-specific. Neutral or Very Friendly prompts generally yield higher accuracy than Very Rude prompts, but statistically significant effects appear only in a subset of Humanities tasks, where rude tone reduces accuracy for GPT and Llama, while Gemini remains comparatively tone-insensitive. When performance is aggregated across tasks within each domain, tone effects diminish and largely lose statistical significance. Compared with earlier researches, these findings suggest that dataset scale and coverage materially influence the detection of tone effects. Overall, our study indicates that while interaction tone can matter in specific interpretive settings, modern LLMs are broadly robust to tonal variation in typical mixed-domain use, providing practical guidance for prompt design and model selection in real-world deployments.