No Universal Courtesy: A Cross-Linguistic, Multi-Model Study of Politeness Effects on LLMs Using the PLUM Corpus

📄 arXiv: 2604.16275v1 📥 PDF

作者: Hitesh Mehta, Arjit Saxena, Garima Chhikara, Rohit Kumar

分类: cs.CL

发布日期: 2026-04-17


💡 一句话要点

PLUM语料库揭示礼貌用语对LLM的影响:跨语言、多模型分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 礼貌用语 跨语言研究 多模型评估 PLUM语料库

📋 核心要点

  1. 现有研究缺乏对不同礼貌程度用语对LLM影响的系统性跨语言分析,阻碍了模型在多文化环境下的应用。
  2. 本文构建PLUM语料库,并设计多语言、多模型的实验框架,量化礼貌程度对LLM响应质量的影响。
  3. 实验表明,礼貌用语的影响因语言和模型而异,Llama对语气最敏感,GPT更具鲁棒性,并验证了礼貌理论的部分假设。

📝 摘要(中文)

本文探讨了大型语言模型(LLM)对不同礼貌程度用户提示的响应。基于Brown和Levinson的礼貌理论以及Culpeper的无礼框架,本文在三种语言(英语、印地语、西班牙语)、五种模型(Gemini-Pro、GPT-4o Mini、Claude 3.7 Sonnet、DeepSeek-Chat和Llama 3)以及三种用户交互历史(原始、礼貌和无礼)下进行了实验。样本包含22,500对提示和响应,并使用八因素评估框架(连贯性、清晰度、深度、响应性、上下文保持、毒性、简洁性和可读性)评估了五个礼貌等级。研究结果表明,模型性能受语气、对话历史和语言的显著影响。虽然礼貌的提示平均能将响应质量提高约11%,而不礼貌的语气会降低响应质量,但这些影响在不同语言和模型中并不一致或普遍。英语最适合礼貌或直接的语气,印地语适合恭敬和间接的语气,西班牙语适合自信的语气。在模型中,Llama对语气最敏感(11.5%范围),而GPT对对抗性语气更具鲁棒性。这些结果表明,礼貌是一种可量化的计算变量,会影响LLM的行为,但其影响是语言和模型相关的,而不是普遍的。为了支持可重复性和未来的工作,本文还发布了PLUM(Politeness Levels in Utterances, Multilingual),这是一个公开可用的语料库,包含1,500个跨三种语言和五种礼貌类别人工验证的提示,并对从礼貌理论中得出的六个可证伪假设进行了正式的补充分析,并根据数据集进行了实证评估。

🔬 方法详解

问题定义:本文旨在研究不同礼貌程度的提示语对大型语言模型(LLM)生成响应的影响。现有方法缺乏对跨语言、多模型场景下礼貌用语影响的系统性分析,导致LLM在不同文化背景下的表现存在差异,难以保证一致性和公平性。

核心思路:本文的核心思路是通过构建一个多语言的礼貌语料库(PLUM),并设计一套全面的评估指标,来量化不同礼貌程度的提示语对LLM响应质量的影响。通过在多个LLM上进行实验,分析礼貌用语对模型性能的普遍性和特殊性,从而揭示礼貌在计算中的作用。

技术框架:本文的技术框架主要包括以下几个部分:1) 构建PLUM语料库:包含英语、印地语和西班牙语三种语言,以及五种礼貌等级的提示语。2) 选择五种主流LLM:Gemini-Pro、GPT-4o Mini、Claude 3.7 Sonnet、DeepSeek-Chat和Llama 3。3) 设计实验场景:包括原始、礼貌和无礼三种用户交互历史。4) 评估指标:使用八个因素评估框架,包括连贯性、清晰度、深度、响应性、上下文保持、毒性、简洁性和可读性。5) 假设验证:基于礼貌理论,提出六个可证伪的假设,并使用PLUM语料库进行验证。

关键创新:本文的关键创新在于:1) 构建了PLUM语料库,为研究礼貌用语对LLM的影响提供了数据基础。2) 提出了一个多语言、多模型的实验框架,可以系统地分析礼貌用语对LLM性能的影响。3) 揭示了礼貌用语的影响因语言和模型而异,强调了在设计LLM时需要考虑文化因素。与现有方法相比,本文更加注重跨语言和多模型的泛化能力,并提供了更全面的评估指标。

关键设计:PLUM语料库包含1500个人工验证的提示,覆盖三种语言和五种礼貌等级。评估指标采用八因素评估框架,对LLM的响应进行全面评估。实验中,通过控制用户交互历史,模拟不同的对话场景。此外,本文还基于礼貌理论,提出了六个可证伪的假设,并使用PLUM语料库进行验证,从而深入理解礼貌用语对LLM的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,礼貌的提示平均能将响应质量提高约11%,而不礼貌的语气会降低响应质量。Llama模型对语气最敏感(11.5%范围),而GPT模型对对抗性语气更具鲁棒性。此外,研究还发现,不同语言对礼貌用语的偏好不同,英语适合礼貌或直接的语气,印地语适合恭敬和间接的语气,西班牙语适合自信的语气。

🎯 应用场景

该研究成果可应用于提升LLM在多语言环境下的用户体验,例如智能客服、虚拟助手等。通过理解不同文化背景下礼貌用语的差异,可以使LLM生成更自然、更符合用户期望的响应,从而提高用户满意度和信任度。此外,该研究还可以指导LLM的设计和训练,使其更好地适应不同的文化环境,避免产生不当或冒犯性的言论。

📄 摘要(原文)

This paper explores the response of Large Language Models (LLMs) to user prompts with different degrees of politeness and impoliteness. The Politeness Theory by Brown and Levinson and the Impoliteness Framework by Culpeper form the basis of experiments conducted across three languages (English, Hindi, Spanish), five models (Gemini-Pro, GPT-4o Mini, Claude 3.7 Sonnet, DeepSeek-Chat, and Llama 3), and three interaction histories between users (raw, polite, and impolite). Our sample consists of 22,500 pairs of prompts and responses of various types, evaluated across five levels of politeness using an eight-factor assessment framework: coherence, clarity, depth, responsiveness, context retention, toxicity, conciseness, and readability. The findings show that model performance is highly influenced by tone, dialogue history, and language. While polite prompts enhance the average response quality by up to ~11% and impolite tones worsen it, these effects are neither consistent nor universal across languages and models. English is best served by courteous or direct tones, Hindi by deferential and indirect tones, and Spanish by assertive tones. Among the models, Llama is the most tone-sensitive (11.5% range), whereas GPT is more robust to adversarial tone. These results indicate that politeness is a quantifiable computational variable that affects LLM behaviour, though its impact is language- and model-dependent rather than universal. To support reproducibility and future work, we additionally release PLUM (Politeness Levels in Utterances, Multilingual), a publicly available corpus of 1,500 human-validated prompts across three languages and five politeness categories, and provide a formal supplementary analysis of six falsifiable hypotheses derived from politeness theory, empirically assessed against the dataset.