Are Vision Language Models Cross-Cultural Theory of Mind Reasoners?

📄 arXiv: 2512.17394v2 📥 PDF

作者: Zabir Al Nazi, GM Shahariar, Md. Abrar Hossain, Wei Peng

分类: cs.CL, cs.CV, cs.CY

发布日期: 2025-12-19 (更新: 2026-01-07)


💡 一句话要点

提出CulturalToM-VQA基准,评估视觉语言模型在跨文化心智理论推理上的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 心智理论 跨文化推理 基准数据集 社会期望偏差

📋 核心要点

  1. 现有视觉语言模型(VLM)的评估主要集中在西方文化,缺乏对跨文化社会推理能力的考察。
  2. 构建CulturalToM-VQA基准,包含多种文化背景下的心智理论(ToM)推理任务,用于评估VLM的跨文化理解能力。
  3. 实验表明,前沿VLM在CulturalToM-VQA上表现出显著提升,但仍存在社会期望偏差和对社会先验知识的依赖。

📝 摘要(中文)

本文提出了CulturalToM-VQA,一个包含5095个视觉情境下的心智理论(ToM)探针的基准数据集,旨在评估视觉语言模型(VLM)在不同文化背景、仪式和社会规范下的推理能力。该数据集通过前沿的专有MLLM和人工验证流程构建,涵盖六种ToM任务和四个复杂程度。对10个VLM(2023-2025年)的评测显示,模型性能有显著提升,早期模型表现不佳,而前沿模型准确率较高(>93%)。然而,模型在错误信念推理方面仍存在显著局限(19-83%准确率),且区域差异较大(20-30%差距)。研究发现,SOTA模型表现出社会期望偏差,系统性地偏好语义上积极的答案选项。消融实验表明,一些前沿模型严重依赖参数化的社会先验知识,频繁地默认选择安全对齐的预测。此外,思维链提示对早期模型有帮助,但对新模型的增益很小。总体而言,本文提供了一个跨文化社会推理的测试平台,强调了尽管架构有所改进,但实现稳健的、视觉基础的理解仍然是一个开放的挑战。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型(VLM)在跨文化情境下的心智理论(ToM)推理能力评估问题。现有VLM评估主要集中在西方文化背景下,缺乏对不同文化、社会规范和仪式的考虑,导致模型在跨文化场景下的表现未知。现有方法无法有效衡量VLM是否真正理解不同文化背景下的人类行为和意图。

核心思路:论文的核心思路是构建一个包含多样化文化背景的视觉情境ToM推理数据集,即CulturalToM-VQA。通过在该数据集上评估VLM的性能,可以更全面地了解模型在跨文化社会推理方面的能力。这种方法能够揭示模型在不同文化情境下的偏差和局限性,从而促进更公平、更具文化敏感性的VLM发展。

技术框架:CulturalToM-VQA的构建流程主要包括以下几个阶段:1) 使用前沿的专有MLLM生成候选的视觉情境ToM推理问题;2) 对生成的候选问题进行人工验证和筛选,确保问题的质量和文化相关性;3) 对问题进行分类,涵盖六种ToM任务和四个复杂程度;4) 构建最终的CulturalToM-VQA数据集,包含5095个视觉情境ToM探针。然后,使用该数据集对多个VLM进行评估,并分析其性能表现。

关键创新:该论文最重要的技术创新点在于构建了CulturalToM-VQA数据集,这是一个专门用于评估VLM在跨文化情境下心智理论推理能力的基准。与现有数据集相比,CulturalToM-VQA更加关注不同文化背景下的社会规范、仪式和信仰,从而能够更全面地评估VLM的跨文化理解能力。此外,该数据集的构建过程采用了MLLM生成和人工验证相结合的方法,保证了数据的质量和多样性。

关键设计:CulturalToM-VQA数据集的关键设计包括:1) 涵盖六种ToM任务,包括信念、意图、情感等;2) 包含四个复杂程度,从简单到复杂,逐步增加推理难度;3) 包含来自不同文化背景的视觉情境,例如不同地区的服饰、食物、节日等;4) 采用VQA形式,要求模型根据视觉信息和问题进行推理,选择正确的答案。在实验中,使用了标准的VQA评估指标,如准确率,来衡量模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,尽管前沿VLM在CulturalToM-VQA上取得了较高的整体准确率(>93%),但在错误信念推理方面仍然表现不佳(19-83%准确率)。此外,模型表现出显著的社会期望偏差,倾向于选择语义上积极的答案。不同区域文化背景下的问题,模型性能差距高达20-30%。思维链提示对早期模型有一定帮助,但对新模型的增益有限。

🎯 应用场景

该研究成果可应用于开发更具文化敏感性和社会智能的AI系统,例如:跨文化交流助手、全球化教育平台、以及能够理解不同文化背景下用户需求的智能客服。通过提升AI在跨文化情境下的推理能力,可以减少文化误解和偏见,促进更和谐的国际合作与交流。

📄 摘要(原文)

Theory of Mind (ToM) - the ability to attribute beliefs and intents to others - is fundamental for social intelligence, yet Vision-Language Model (VLM) evaluations remain largely Western-centric. In this work, we introduce CulturalToM-VQA, a benchmark of 5,095 visually situated ToM probes across diverse cultural contexts, rituals, and social norms. Constructed through a frontier proprietary MLLM, human-verified pipeline, the dataset spans a taxonomy of six ToM tasks and four complexity levels. We benchmark 10 VLMs (2023-2025) and observe a significant performance leap: while earlier models struggle, frontier models achieve high accuracy (>93%). However, significant limitations persist: models struggle with false belief reasoning (19-83% accuracy) and show high regional variance (20-30% gaps). Crucially, we find that SOTA models exhibit social desirability bias - systematically favoring semantically positive answer choices over negative ones. Ablation experiments reveal that some frontier models rely heavily on parametric social priors, frequently defaulting to safety-aligned predictions. Furthermore, while Chain-of-Thought prompting aids older models, it yields minimal gains for newer ones. Overall, our work provides a testbed for cross-cultural social reasoning, underscoring that despite architectural gains, achieving robust, visually grounded understanding remains an open challenge.