DeepSeek's WEIRD Behavior: The cultural alignment of Large Language Models and the effects of prompt language and cultural prompting

📄 arXiv: 2512.09772v2 📥 PDF

作者: James Luther, Donald Brown

分类: cs.CL

发布日期: 2025-12-10 (更新: 2025-12-12)


💡 一句话要点

探究大语言模型的文化倾向:提示词语言和文化引导的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 文化倾向 文化引导 提示工程 跨文化交流

📋 核心要点

  1. 现有LLM在人机交互中扮演重要角色,但其文化倾向性研究不足,可能导致文化偏见。
  2. 论文通过文化引导和提示词语言控制,使LLM的输出与特定国家文化价值观对齐。
  3. 实验表明不同LLM对文化引导的敏感度不同,部分模型存在固有的文化倾向性。

📝 摘要(中文)

文化是人际互动的重要组成部分,影响着我们如何感知和与他人互动。大型语言模型(LLM)在生成类人文本方面的进步极大地增加了人机交互。随着该领域的增长,这些类人代理的文化一致性成为一个重要的研究领域。本文利用Hofstede的VSM13国际调查来理解以下模型的文化倾向:DeepSeek-V3、V3.1、GPT-4、GPT-4.1、GPT-4o和GPT-5。我们结合了提示词语言和文化引导(一种使用系统提示来转移模型倾向以反映特定国家的策略)来使这些LLM与美国和中国保持一致。结果表明,DeepSeek-V3、V3.1和OpenAI的GPT-5与美国的调查结果非常一致,即使使用文化提示或更改提示词语言,也无法与中国达成强或软一致。我们还发现,GPT-4在用英语提示时表现出更接近中国的倾向,但文化提示可以有效地将其倾向转移到更接近美国。其他低成本模型GPT-4o和GPT-4.1对所使用的提示词语言(即英语或简体中文)和文化提示策略做出响应,从而与美国和中国建立了可接受的一致性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在生成内容时可能存在的文化偏见问题。现有方法缺乏对LLM文化倾向性的系统性评估和有效控制手段,可能导致模型在不同文化背景下产生不适当或不准确的输出。

核心思路:论文的核心思路是通过控制提示词的语言和引入文化引导,来调整LLM的文化倾向性,使其输出与特定国家或地区的文化价值观相符。这种方法旨在使LLM更具文化敏感性,从而提高其在跨文化交流中的适用性和可靠性。

技术框架:论文采用Hofstede的VSM13国际调查作为文化价值观的参考标准。研究流程包括:1) 选择待评估的LLM;2) 设计包含文化引导的提示词,分别使用英语和简体中文;3) 将提示词输入LLM,获取输出结果;4) 使用VSM13标准评估LLM输出结果与美国和中国文化价值观的匹配程度。

关键创新:论文的关键创新在于提出了文化引导的概念,并将其应用于LLM的文化倾向性调整。与以往主要关注语言和知识的LLM研究不同,本文强调了文化因素的重要性,并探索了通过提示工程来影响LLM文化倾向性的方法。

关键设计:文化引导的具体实现方式是通过在系统提示中加入特定国家的文化价值观描述,例如强调集体主义或个人主义。提示词的设计需要确保能够清晰地传达目标文化价值观,并引导LLM生成符合该文化背景的输出。论文还考察了不同提示词语言(英语和简体中文)对LLM文化倾向性的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DeepSeek-V3、V3.1和GPT-5表现出较强的美国文化倾向,难以通过文化引导进行调整。GPT-4在英语提示下更接近中国文化,但可通过文化引导向美国文化偏移。GPT-4o和GPT-4.1对提示词语言和文化引导均较为敏感,能够较好地适应美国和中国文化。

🎯 应用场景

该研究成果可应用于跨文化交流、国际市场营销、多语言客户服务等领域。通过调整LLM的文化倾向性,可以使其更好地适应不同文化背景下的用户需求,提高沟通效率和用户满意度。未来,该研究可进一步扩展到更多文化维度和语言,为构建更具文化敏感性和适应性的AI系统提供指导。

📄 摘要(原文)

Culture is a core component of human-to-human interaction and plays a vital role in how we perceive and interact with others. Advancements in the effectiveness of Large Language Models (LLMs) in generating human-sounding text have greatly increased the amount of human-to-computer interaction. As this field grows, the cultural alignment of these human-like agents becomes an important field of study. Our work uses Hofstede's VSM13 international surveys to understand the cultural alignment of the following models: DeepSeek-V3, V3.1, GPT-4, GPT-4.1, GPT-4o, and GPT-5. We use a combination of prompt language and cultural prompting, a strategy that uses a system prompt to shift a model's alignment to reflect a specific country, to align these LLMs with the United States and China. Our results show that DeepSeek-V3, V3.1, and OpenAI's GPT-5 exhibit a close alignment with the survey responses of the United States and do not achieve a strong or soft alignment with China, even when using cultural prompts or changing the prompt language. We also find that GPT-4 exhibits an alignment closer to China when prompted in English, but cultural prompting is effective in shifting this alignment closer to the United States. Other low-cost models, GPT-4o and GPT-4.1, respond to the prompt language used (i.e., English or Simplified Chinese) and cultural prompting strategies to create acceptable alignments with both the United States and China.