Metaphors We Compute By: A Computational Audit of Cultural Translation vs. Thinking in LLMs

作者: Yuan Chang, Jiaming Qu, Zhu Li

分类: cs.CL, cs.AI

发布日期: 2026-04-07

💡 一句话要点

通过计算审计揭示LLM在文化翻译而非文化思维上的局限性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文化推理 隐喻生成 计算审计 文化包容性

📋 核心要点

现有LLM在多语言能力上表现出色，但缺乏对文化背景的深入理解和推理能力。
该研究通过隐喻生成任务，检验LLM在不同文化背景下的创造性写作能力，评估其文化意识。
实验结果表明，LLM倾向于使用刻板印象的隐喻，并存在西方文化默认主义，文化推理能力不足。

📝 摘要（中文）

大型语言模型（LLM）因其能够理解和回应多种语言而被认为是多语言的。然而，说一种语言与在一种文化中进行推理是不同的。这种区别引出了一个关键问题：LLM是否真正进行具有文化意识的推理？本文对创造性写作任务中的文化包容性进行了初步的计算审计。我们通过一个隐喻生成任务，涵盖五个文化背景和几个抽象概念，实证地检验了LLM是作为文化多元的创意伙伴，还是仅仅作为文化翻译者，利用一种具有本地化表达的 dominant 概念框架。我们发现，该模型对某些设置表现出刻板印象的隐喻用法，以及西方默认主义。这些发现表明，仅仅用一种文化身份提示LLM并不能保证文化基础的推理。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLM）在进行创造性写作时，是否能够真正理解和应用不同文化背景下的知识，还是仅仅进行表面的文化翻译。现有LLM虽然具备多语言能力，但缺乏对文化细微差别的理解，容易产生刻板印象和文化偏见。

核心思路：论文的核心思路是通过设计一个跨文化隐喻生成任务，来检验LLM是否能够进行文化意识的推理。隐喻是文化表达的重要形式，能够反映不同文化对抽象概念的理解。通过分析LLM生成的隐喻，可以评估其文化理解的深度和广度。

技术框架：该研究采用了一种计算审计的方法，主要流程包括：1) 选择五个不同的文化背景；2) 选取若干抽象概念；3) 提示LLM为每个文化背景和抽象概念生成隐喻；4) 分析LLM生成的隐喻，评估其文化多样性、刻板印象和西方默认主义。

关键创新：该研究的创新之处在于，它首次采用计算审计的方法，系统地评估了LLM在文化推理方面的能力。通过隐喻生成任务，能够有效地揭示LLM在文化理解方面的局限性。该研究还提出了西方默认主义的概念，指出LLM在缺乏明确文化提示时，倾向于使用西方文化的知识和价值观。

关键设计：在实验设计方面，研究者精心选择了五个具有代表性的文化背景，并选取了多个抽象概念，以确保实验结果的可靠性和泛化性。在分析LLM生成的隐喻时，研究者采用了多种指标，包括文化多样性、刻板印象和西方默认主义，以全面评估LLM的文化理解能力。具体的参数设置和模型结构信息未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在隐喻生成任务中表现出对某些文化背景的刻板印象，以及西方默认主义。例如，在描述“时间”的概念时，LLM更倾向于使用西方文化中常见的“时间是金钱”的隐喻，而忽略其他文化中对时间的理解。这些发现表明，仅仅用文化身份提示LLM并不能保证文化基础的推理，需要更深入的研究和改进。

🎯 应用场景

该研究成果可应用于改进LLM的文化理解能力，使其在跨文化交流、内容创作和教育等领域更加有效和可靠。通过提高LLM的文化敏感性，可以避免产生文化误解和偏见，促进不同文化之间的交流和理解。未来的研究可以探索如何利用文化知识图谱、文化嵌入等技术，提高LLM的文化推理能力。

📄 摘要（原文）

Large language models (LLMs) are often described as multilingual because they can understand and respond in many languages. However, speaking a language is not the same as reasoning within a culture. This distinction motivates a critical question: do LLMs truly conduct culture-aware reasoning? This paper presents a preliminary computational audit of cultural inclusivity in a creative writing task. We empirically examine whether LLMs act as culturally diverse creative partners or merely as cultural translators that leverage a dominant conceptual framework with localized expressions. Using a metaphor generation task spanning five cultural settings and several abstract concepts as a case study, we find that the model exhibits stereotyped metaphor usage for certain settings, as well as Western defaultism. These findings suggest that merely prompting an LLM with a cultural identity does not guarantee culturally grounded reasoning.

Metaphors We Compute By: A Computational Audit of Cultural Translation vs. Thinking in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理