Metaphors We Compute By: A Computational Audit of Cultural Translation vs. Thinking in LLMs
作者: Yuan Chang, Jiaming Qu, Zhu Li
分类: cs.CL, cs.AI
发布日期: 2026-04-07
💡 一句话要点
通过计算审计揭示LLM在文化翻译而非文化思维上的局限性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 文化推理 隐喻生成 计算审计 文化包容性
📋 核心要点
- 现有LLM在多语言能力上表现出色,但缺乏对文化背景的深入理解和推理能力。
- 该研究通过隐喻生成任务,检验LLM在不同文化背景下的创造性写作能力,评估其文化意识。
- 实验结果表明,LLM倾向于使用刻板印象的隐喻,并存在西方文化默认主义,文化推理能力不足。
📝 摘要(中文)
大型语言模型(LLM)因其能够理解和回应多种语言而被认为是多语言的。然而,说一种语言与在一种文化中进行推理是不同的。这种区别引出了一个关键问题:LLM是否真正进行具有文化意识的推理?本文对创造性写作任务中的文化包容性进行了初步的计算审计。我们通过一个隐喻生成任务,涵盖五个文化背景和几个抽象概念,实证地检验了LLM是作为文化多元的创意伙伴,还是仅仅作为文化翻译者,利用一种具有本地化表达的 dominant 概念框架。我们发现,该模型对某些设置表现出刻板印象的隐喻用法,以及西方默认主义。这些发现表明,仅仅用一种文化身份提示LLM并不能保证文化基础的推理。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)在进行创造性写作时,是否能够真正理解和应用不同文化背景下的知识,还是仅仅进行表面的文化翻译。现有LLM虽然具备多语言能力,但缺乏对文化细微差别的理解,容易产生刻板印象和文化偏见。
核心思路:论文的核心思路是通过设计一个跨文化隐喻生成任务,来检验LLM是否能够进行文化意识的推理。隐喻是文化表达的重要形式,能够反映不同文化对抽象概念的理解。通过分析LLM生成的隐喻,可以评估其文化理解的深度和广度。
技术框架:该研究采用了一种计算审计的方法,主要流程包括:1) 选择五个不同的文化背景;2) 选取若干抽象概念;3) 提示LLM为每个文化背景和抽象概念生成隐喻;4) 分析LLM生成的隐喻,评估其文化多样性、刻板印象和西方默认主义。
关键创新:该研究的创新之处在于,它首次采用计算审计的方法,系统地评估了LLM在文化推理方面的能力。通过隐喻生成任务,能够有效地揭示LLM在文化理解方面的局限性。该研究还提出了西方默认主义的概念,指出LLM在缺乏明确文化提示时,倾向于使用西方文化的知识和价值观。
关键设计:在实验设计方面,研究者精心选择了五个具有代表性的文化背景,并选取了多个抽象概念,以确保实验结果的可靠性和泛化性。在分析LLM生成的隐喻时,研究者采用了多种指标,包括文化多样性、刻板印象和西方默认主义,以全面评估LLM的文化理解能力。具体的参数设置和模型结构信息未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在隐喻生成任务中表现出对某些文化背景的刻板印象,以及西方默认主义。例如,在描述“时间”的概念时,LLM更倾向于使用西方文化中常见的“时间是金钱”的隐喻,而忽略其他文化中对时间的理解。这些发现表明,仅仅用文化身份提示LLM并不能保证文化基础的推理,需要更深入的研究和改进。
🎯 应用场景
该研究成果可应用于改进LLM的文化理解能力,使其在跨文化交流、内容创作和教育等领域更加有效和可靠。通过提高LLM的文化敏感性,可以避免产生文化误解和偏见,促进不同文化之间的交流和理解。未来的研究可以探索如何利用文化知识图谱、文化嵌入等技术,提高LLM的文化推理能力。
📄 摘要(原文)
Large language models (LLMs) are often described as multilingual because they can understand and respond in many languages. However, speaking a language is not the same as reasoning within a culture. This distinction motivates a critical question: do LLMs truly conduct culture-aware reasoning? This paper presents a preliminary computational audit of cultural inclusivity in a creative writing task. We empirically examine whether LLMs act as culturally diverse creative partners or merely as cultural translators that leverage a dominant conceptual framework with localized expressions. Using a metaphor generation task spanning five cultural settings and several abstract concepts as a case study, we find that the model exhibits stereotyped metaphor usage for certain settings, as well as Western defaultism. These findings suggest that merely prompting an LLM with a cultural identity does not guarantee culturally grounded reasoning.