Do LLMs Capture Embodied Cognition and Cultural Variation? Cross-Linguistic Evidence from Demonstratives

作者: Yu Wang, Emmanuele Chersoni, Chu-Ren Huang

分类: cs.CL, cs.AI

发布日期: 2026-04-28

备注: Accepted to ACL 2026

💡 一句话要点

利用指示词揭示LLM在具身认知和文化差异理解上的不足

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 具身认知 文化差异 指示词 跨语言研究

📋 核心要点

现有LLM在具身认知和文化理解方面存在不足，无法准确捕捉不同语言中指示词的细微差别。
论文提出使用指示词作为探针，评估LLM对空间概念和文化视角的理解能力，揭示其局限性。
实验表明，LLM在处理指示词时表现出以英语为中心的偏见，未能体现人类的跨文化差异。

📝 摘要（中文）

大型语言模型（LLM）是否真正从文本中习得具身认知和文化惯例？本文引入指示词，如英语中的“this/that”和汉语中的“这/那”，作为一种新的探针来研究LLM对具身知识的掌握程度。通过对320名母语者提供的6400个回复进行分析，我们建立了人类基线：英语使用者能够可靠地区分近指和远指，但在视角转换方面存在困难，而汉语使用者能够流畅地切换视角，但对远指的容忍度更高。相比之下，五个最先进的LLM未能内在理解近指-远指的对比，并且没有表现出文化差异，而是默认采用以英语为中心的推理方式。本研究贡献包括：（i）基于指示词的新任务，作为评估具身认知和文化惯例的新视角；（ii）人类解释中跨文化不对称性的经验证据；（iii）关于自我中心-社会中心辩论的新视角，表明这两种取向共存但因语言而异；（iv）呼吁在未来的模型设计中解决个体差异。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLM）是否能够捕捉到具身认知和文化差异，特别是体现在不同语言中指示词（如“this/that”和“这/那”）的使用上。现有方法缺乏对LLM在理解空间关系和文化视角方面能力的有效评估，并且忽略了不同语言使用者在指示词使用上的差异。

核心思路：论文的核心思路是将指示词作为一种探针，通过分析LLM在不同语境下对指示词的理解和使用，来评估其是否具备具身认知和文化意识。这种方法基于指示词与说话者、听者和指代对象之间的空间关系密切相关的特性。

技术框架：论文的技术框架主要包括以下几个步骤：1) 构建包含不同语境的指示词使用场景；2) 收集人类受试者在这些场景下的指示词使用数据，建立人类基线；3) 使用LLM对相同场景进行推理，生成指示词使用结果；4) 将LLM的结果与人类基线进行对比分析，评估LLM的性能。

关键创新：论文的关键创新在于：1) 提出了一种新的评估LLM具身认知和文化理解能力的方法，即使用指示词作为探针；2) 揭示了LLM在处理指示词时存在的以英语为中心的偏见，以及未能捕捉到人类跨文化差异的现象；3) 强调了在LLM设计中考虑个体差异的重要性。

关键设计：论文的关键设计包括：1) 精心设计的指示词使用场景，涵盖了不同的空间关系和文化视角；2) 大规模的人类数据收集，建立了可靠的人类基线；3) 对比分析LLM和人类在指示词使用上的差异，量化了LLM的不足。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在处理指示词时表现出明显的以英语为中心的偏见，未能体现人类的跨文化差异。例如，LLM无法像汉语使用者那样流畅地进行视角转换，并且对远指的容忍度较低，更接近英语使用者的习惯。这表明LLM在具身认知和文化理解方面仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于提升LLM在跨文化交流和人机交互中的表现。通过更好地理解不同语言和文化背景下的具身认知，LLM可以更准确地理解用户意图，生成更自然、更符合文化习惯的回复，从而提高用户体验。

📄 摘要（原文）

Do large language models (LLMs) truly acquire embodied cognition and cultural conventions from text? We introduce demonstratives, fundamental spatial expressions like "this/that" in English and "zhè/nà" in Chinese, as a novel probe for grounded knowledge. Using 6,400 responses from 320 native speakers, we establish a human baseline: English speakers reliably distinguish proximal-distal referents but struggle with perspective-taking, while Chinese speakers switch perspectives fluently but tolerate distal ambiguity. In contrast, five state-of-the-art LLMs fail to inherently understand the proximal-distal contrast and show no cultural differences, defaulting to English-centric reasoning. Our study contributes (i) a new task, based on demonstratives, as a new lens for evaluating embodied cognition and cultural conventions; (ii) empirical evidence of cross-cultural asymmetries in human interpretation; (iii) a new perspective on the egocentric-sociocentric debate, showing both orientations coexist but vary across languages; and (iv) a call to address individual variation in future model design.

Do LLMs Capture Embodied Cognition and Cultural Variation? Cross-Linguistic Evidence from Demonstratives

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理