Are Vision Language Models Cross-Cultural Theory of Mind Reasoners?

作者: Zabir Al Nazi, GM Shahariar, Md. Abrar Hossain, Wei Peng

分类: cs.CL, cs.CV, cs.CY

发布日期: 2025-12-19 (更新: 2026-01-07)

💡 一句话要点

提出CulturalToM-VQA基准，评估视觉语言模型在跨文化心智理论推理上的能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 心智理论 跨文化推理 基准数据集 社会期望偏差

📋 核心要点

现有视觉语言模型（VLM）的评估主要集中在西方文化，缺乏对跨文化社会推理能力的考察。
构建CulturalToM-VQA基准，包含多种文化背景下的心智理论（ToM）推理任务，用于评估VLM的跨文化理解能力。
实验表明，前沿VLM在CulturalToM-VQA上表现出显著提升，但仍存在社会期望偏差和对社会先验知识的依赖。

📝 摘要（中文）

本文提出了CulturalToM-VQA，一个包含5095个视觉情境下的心智理论（ToM）探针的基准数据集，旨在评估视觉语言模型（VLM）在不同文化背景、仪式和社会规范下的推理能力。该数据集通过前沿的专有MLLM和人工验证流程构建，涵盖六种ToM任务和四个复杂程度。对10个VLM（2023-2025年）的评测显示，模型性能有显著提升，早期模型表现不佳，而前沿模型准确率较高（>93%）。然而，模型在错误信念推理方面仍存在显著局限（19-83%准确率），且区域差异较大（20-30%差距）。研究发现，SOTA模型表现出社会期望偏差，系统性地偏好语义上积极的答案选项。消融实验表明，一些前沿模型严重依赖参数化的社会先验知识，频繁地默认选择安全对齐的预测。此外，思维链提示对早期模型有帮助，但对新模型的增益很小。总体而言，本文提供了一个跨文化社会推理的测试平台，强调了尽管架构有所改进，但实现稳健的、视觉基础的理解仍然是一个开放的挑战。

🔬 方法详解

问题定义：论文旨在解决视觉语言模型（VLM）在跨文化情境下的心智理论（ToM）推理能力评估问题。现有VLM评估主要集中在西方文化背景下，缺乏对不同文化、社会规范和仪式的考虑，导致模型在跨文化场景下的表现未知。现有方法无法有效衡量VLM是否真正理解不同文化背景下的人类行为和意图。

核心思路：论文的核心思路是构建一个包含多样化文化背景的视觉情境ToM推理数据集，即CulturalToM-VQA。通过在该数据集上评估VLM的性能，可以更全面地了解模型在跨文化社会推理方面的能力。这种方法能够揭示模型在不同文化情境下的偏差和局限性，从而促进更公平、更具文化敏感性的VLM发展。

技术框架：CulturalToM-VQA的构建流程主要包括以下几个阶段：1) 使用前沿的专有MLLM生成候选的视觉情境ToM推理问题；2) 对生成的候选问题进行人工验证和筛选，确保问题的质量和文化相关性；3) 对问题进行分类，涵盖六种ToM任务和四个复杂程度；4) 构建最终的CulturalToM-VQA数据集，包含5095个视觉情境ToM探针。然后，使用该数据集对多个VLM进行评估，并分析其性能表现。

关键创新：该论文最重要的技术创新点在于构建了CulturalToM-VQA数据集，这是一个专门用于评估VLM在跨文化情境下心智理论推理能力的基准。与现有数据集相比，CulturalToM-VQA更加关注不同文化背景下的社会规范、仪式和信仰，从而能够更全面地评估VLM的跨文化理解能力。此外，该数据集的构建过程采用了MLLM生成和人工验证相结合的方法，保证了数据的质量和多样性。

关键设计：CulturalToM-VQA数据集的关键设计包括：1) 涵盖六种ToM任务，包括信念、意图、情感等；2) 包含四个复杂程度，从简单到复杂，逐步增加推理难度；3) 包含来自不同文化背景的视觉情境，例如不同地区的服饰、食物、节日等；4) 采用VQA形式，要求模型根据视觉信息和问题进行推理，选择正确的答案。在实验中，使用了标准的VQA评估指标，如准确率，来衡量模型的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，尽管前沿VLM在CulturalToM-VQA上取得了较高的整体准确率（>93%），但在错误信念推理方面仍然表现不佳（19-83%准确率）。此外，模型表现出显著的社会期望偏差，倾向于选择语义上积极的答案。不同区域文化背景下的问题，模型性能差距高达20-30%。思维链提示对早期模型有一定帮助，但对新模型的增益有限。

🎯 应用场景

该研究成果可应用于开发更具文化敏感性和社会智能的AI系统，例如：跨文化交流助手、全球化教育平台、以及能够理解不同文化背景下用户需求的智能客服。通过提升AI在跨文化情境下的推理能力，可以减少文化误解和偏见，促进更和谐的国际合作与交流。

📄 摘要（原文）

Theory of Mind (ToM) - the ability to attribute beliefs and intents to others - is fundamental for social intelligence, yet Vision-Language Model (VLM) evaluations remain largely Western-centric. In this work, we introduce CulturalToM-VQA, a benchmark of 5,095 visually situated ToM probes across diverse cultural contexts, rituals, and social norms. Constructed through a frontier proprietary MLLM, human-verified pipeline, the dataset spans a taxonomy of six ToM tasks and four complexity levels. We benchmark 10 VLMs (2023-2025) and observe a significant performance leap: while earlier models struggle, frontier models achieve high accuracy (>93%). However, significant limitations persist: models struggle with false belief reasoning (19-83% accuracy) and show high regional variance (20-30% gaps). Crucially, we find that SOTA models exhibit social desirability bias - systematically favoring semantically positive answer choices over negative ones. Ablation experiments reveal that some frontier models rely heavily on parametric social priors, frequently defaulting to safety-aligned predictions. Furthermore, while Chain-of-Thought prompting aids older models, it yields minimal gains for newer ones. Overall, our work provides a testbed for cross-cultural social reasoning, underscoring that despite architectural gains, achieving robust, visually grounded understanding remains an open challenge.

Are Vision Language Models Cross-Cultural Theory of Mind Reasoners?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理