Do LLMs Capture Embodied Cognition and Cultural Variation? Cross-Linguistic Evidence from Demonstratives
作者: Yu Wang, Emmanuele Chersoni, Chu-Ren Huang
分类: cs.CL, cs.AI
发布日期: 2026-04-28
备注: Accepted to ACL 2026
💡 一句话要点
利用指示词揭示LLM在具身认知和文化差异理解上的不足
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 具身认知 文化差异 指示词 跨语言研究
📋 核心要点
- 现有LLM在具身认知和文化理解方面存在不足,无法准确捕捉不同语言中指示词的细微差别。
- 论文提出使用指示词作为探针,评估LLM对空间概念和文化视角的理解能力,揭示其局限性。
- 实验表明,LLM在处理指示词时表现出以英语为中心的偏见,未能体现人类的跨文化差异。
📝 摘要(中文)
大型语言模型(LLM)是否真正从文本中习得具身认知和文化惯例?本文引入指示词,如英语中的“this/that”和汉语中的“这/那”,作为一种新的探针来研究LLM对具身知识的掌握程度。通过对320名母语者提供的6400个回复进行分析,我们建立了人类基线:英语使用者能够可靠地区分近指和远指,但在视角转换方面存在困难,而汉语使用者能够流畅地切换视角,但对远指的容忍度更高。相比之下,五个最先进的LLM未能内在理解近指-远指的对比,并且没有表现出文化差异,而是默认采用以英语为中心的推理方式。本研究贡献包括:(i)基于指示词的新任务,作为评估具身认知和文化惯例的新视角;(ii)人类解释中跨文化不对称性的经验证据;(iii)关于自我中心-社会中心辩论的新视角,表明这两种取向共存但因语言而异;(iv)呼吁在未来的模型设计中解决个体差异。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)是否能够捕捉到具身认知和文化差异,特别是体现在不同语言中指示词(如“this/that”和“这/那”)的使用上。现有方法缺乏对LLM在理解空间关系和文化视角方面能力的有效评估,并且忽略了不同语言使用者在指示词使用上的差异。
核心思路:论文的核心思路是将指示词作为一种探针,通过分析LLM在不同语境下对指示词的理解和使用,来评估其是否具备具身认知和文化意识。这种方法基于指示词与说话者、听者和指代对象之间的空间关系密切相关的特性。
技术框架:论文的技术框架主要包括以下几个步骤:1) 构建包含不同语境的指示词使用场景;2) 收集人类受试者在这些场景下的指示词使用数据,建立人类基线;3) 使用LLM对相同场景进行推理,生成指示词使用结果;4) 将LLM的结果与人类基线进行对比分析,评估LLM的性能。
关键创新:论文的关键创新在于:1) 提出了一种新的评估LLM具身认知和文化理解能力的方法,即使用指示词作为探针;2) 揭示了LLM在处理指示词时存在的以英语为中心的偏见,以及未能捕捉到人类跨文化差异的现象;3) 强调了在LLM设计中考虑个体差异的重要性。
关键设计:论文的关键设计包括:1) 精心设计的指示词使用场景,涵盖了不同的空间关系和文化视角;2) 大规模的人类数据收集,建立了可靠的人类基线;3) 对比分析LLM和人类在指示词使用上的差异,量化了LLM的不足。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在处理指示词时表现出明显的以英语为中心的偏见,未能体现人类的跨文化差异。例如,LLM无法像汉语使用者那样流畅地进行视角转换,并且对远指的容忍度较低,更接近英语使用者的习惯。这表明LLM在具身认知和文化理解方面仍有很大的提升空间。
🎯 应用场景
该研究成果可应用于提升LLM在跨文化交流和人机交互中的表现。通过更好地理解不同语言和文化背景下的具身认知,LLM可以更准确地理解用户意图,生成更自然、更符合文化习惯的回复,从而提高用户体验。
📄 摘要(原文)
Do large language models (LLMs) truly acquire embodied cognition and cultural conventions from text? We introduce demonstratives, fundamental spatial expressions like "this/that" in English and "zhè/nà" in Chinese, as a novel probe for grounded knowledge. Using 6,400 responses from 320 native speakers, we establish a human baseline: English speakers reliably distinguish proximal-distal referents but struggle with perspective-taking, while Chinese speakers switch perspectives fluently but tolerate distal ambiguity. In contrast, five state-of-the-art LLMs fail to inherently understand the proximal-distal contrast and show no cultural differences, defaulting to English-centric reasoning. Our study contributes (i) a new task, based on demonstratives, as a new lens for evaluating embodied cognition and cultural conventions; (ii) empirical evidence of cross-cultural asymmetries in human interpretation; (iii) a new perspective on the egocentric-sociocentric debate, showing both orientations coexist but vary across languages; and (iv) a call to address individual variation in future model design.