Do LLMs Use Cultural Knowledge Without Being Told? A Multilingual Evaluation of Implicit Pragmatic Adaptation
作者: Mehwish Nasim, Sanjeevan Selvaganapathy, Neel Ganapathi Sabhahit, Marie Griesbach, Pranav Bhandari, Janina Lütke Stockdiek, Lennart Schäpermeier, Usman Naseem, Christian Grimme
分类: cs.CL, cs.SI
发布日期: 2026-04-20
💡 一句话要点
评估大语言模型在隐含文化情境下的语用适应能力,揭示其对文化知识的利用程度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 文化语用学 语用情境敏感性 多语言评估 隐含文化情境
📋 核心要点
- 现有基准测试主要关注LLM对文化事实知识的掌握,忽略了其在隐含文化情境下的语用适应能力。
- 本文提出了一种新的评估框架,通过对比显式文化指令和隐式情境提示,量化LLM的语用情境敏感性。
- 实验结果表明,LLM在隐含文化情境下的语用适应能力有限,仅能恢复显式指令下语用变化的约五分之一。
📝 摘要(中文)
许多基准测试表明,大型语言模型可以回答关于文化的直接问题。本文研究了一个不同的问题:当文化仅由情境暗示时,它们是否也会改变说话方式?我们评估了五种语言的60个具有文化背景的对话场景,分为三种情况:中性基线(Prompt A),显式文化指令(Prompt B)和隐式情境提示(Prompt C)。我们根据12个语用特征对响应进行评分,这些特征涵盖了对权威的尊重、个人与群体框架以及不确定性管理。我们将语用情境敏感性(PCS)定义为Prompt A->B变化在Prompt A->C下重新出现的比例。在四个已部署的LLM和五种语言(英语、德语、印地语、尼泊尔语、乌尔都语)中,主要的稳定PCS平均值为0.196(SD = 0.113),表明这些模型仅恢复了它们在明确指示下可以产生的语用变化的约五分之一。对于权威相关提示的迁移最强(0.299),而对于个人与群体框架的迁移最弱(0.120)。与不确定性相关的行为是混合的:对冲密度在所有五种语言中都表现出负的显式差距,表明对齐训练主动抑制了目标行为。由于印地语和乌尔都语共享核心语法,但代表了不同的文化社区,因此我们将它们用作自然对照;配对分析发现没有可靠的基线差异(t = 0.96,p = 0.339,dz = 0.06),表明模型主要响应语言结构,而不是语言所携带的文化关联。我们认为,多语言文化语用学是一个显式与隐式的部署问题,而不仅仅是一个事实知识问题。
🔬 方法详解
问题定义:现有的大语言模型评估主要集中在模型对文化事实知识的掌握程度,而忽略了模型在实际应用中,面对隐含的文化情境时,能否自适应地调整其语言表达方式,例如在不同文化背景下对权威的尊重程度、个人主义或集体主义的倾向等。现有方法无法有效评估模型在这些微妙的语用层面的文化理解能力。
核心思路:本文的核心思路是通过设计一系列具有文化背景的对话场景,并分别采用中性提示、显式文化指令和隐式情境提示三种方式引导模型生成回复,然后对比不同提示方式下模型回复的语用特征差异,从而量化模型对隐含文化情境的敏感程度。这种方法能够更真实地反映模型在实际应用中对文化因素的考虑。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 设计60个具有文化背景的对话场景,涵盖五种语言(英语、德语、印地语、尼泊尔语、乌尔都语);2) 对每个场景,分别使用三种提示方式:中性基线(Prompt A)、显式文化指令(Prompt B)和隐式情境提示(Prompt C);3) 使用四个已部署的LLM生成回复;4) 定义12个语用特征,包括对权威的尊重、个人与群体框架、不确定性管理等;5) 对生成的回复进行评分,计算语用情境敏感性(PCS),即Prompt A->B变化在Prompt A->C下重新出现的比例;6) 对不同语言和不同语用特征的PCS进行统计分析。
关键创新:该研究的关键创新在于提出了语用情境敏感性(PCS)这一指标,用于量化LLM在隐含文化情境下的语用适应能力。与以往主要关注文化事实知识的评估方法不同,PCS能够更全面地反映模型在实际应用中对文化因素的考虑。此外,该研究还通过对比印地语和乌尔都语这两种共享核心语法但代表不同文化社区的语言,分析了模型对语言结构和文化关联的响应差异。
关键设计:在提示设计方面,显式文化指令(Prompt B)直接告知模型需要考虑的文化因素,例如“请以尊重长辈的口吻回复”。隐式情境提示(Prompt C)则通过描述具体的场景来暗示文化背景,例如“你正在与一位年长的教授交谈”。在语用特征选择方面,研究选择了12个具有代表性的特征,涵盖了不同文化维度,例如权力距离、个人主义/集体主义等。在统计分析方面,研究采用了配对t检验等方法,分析不同语言和不同语用特征的PCS差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在隐含文化情境下的语用适应能力有限,平均PCS值为0.196。对于权威相关提示的迁移最强(0.299),而对于个人与群体框架的迁移最弱(0.120)。印地语和乌尔都语的配对分析表明,模型主要响应语言结构,而非文化关联。研究还发现,对齐训练可能会主动抑制某些目标行为,例如对冲。
🎯 应用场景
该研究成果可应用于开发更具文化敏感性的对话系统和智能助手。通过提升LLM在隐含文化情境下的语用适应能力,可以有效避免文化误解和冒犯,提高用户体验。此外,该研究还可以为跨文化交流和文化理解提供新的视角和工具。
📄 摘要(原文)
Many benchmarks show that large language models can answer direct questions about culture. We study a different question: do they also change how they speak when culture is only implied by the situation? We evaluate 60 culturally grounded conversational scenarios across five languages in three conditions: a neutral baseline (Prompt A), an explicit cultural instruction (Prompt B), and implicit situational cueing (Prompt C). We score responses on 12 pragmatic features covering deference to authority, individual-versus-group framing, and uncertainty management. We define Pragmatic Context Sensitivity (PCS) as the fraction of the Prompt A->B shift that reappears under Prompt A->C. Across four deployed LLMs and five languages (English, German, Hindi, Nepali, Urdu), the primary stable-only PCS mean is 0.196 (SD = 0.113), indicating that the models recover only about one-fifth of the pragmatic shift they can produce when instructed explicitly. Transfer is strongest for authority-related cues (0.299) and weakest for individual-versus-group framing (0.120). Uncertainty-related behaviour is mixed: hedging density exhibits negative explicit gaps in all five languages, suggesting that alignment training actively suppresses the target behaviour. Because Hindi and Urdu share core grammar yet index distinct cultural communities, we use them as a natural control; a paired analysis finds no reliable baseline difference (t = 0.96, p = 0.339, dz = 0.06), suggesting that models respond primarily to linguistic structure rather than to the cultural associations a language carries. We argue that multilingual cultural pragmatics is an explicit-versus-implicit deployment problem, not only a factual knowledge problem.