EgoToM: Benchmarking Theory of Mind Reasoning from Egocentric Videos
作者: Yuxuan Li, Vijay Veerabadran, Michael L. Iuzzolino, Brett D. Roads, Asli Celikyilmaz, Karl Ridgeway
分类: cs.CV, cs.AI
发布日期: 2025-03-28
💡 一句话要点
EgoToM:提出基于第一视角视频的心智理论推理评测基准。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心智理论 第一视角视频 视频问答 多模态学习 因果推理
📋 核心要点
- 现有方法在评估智能体理解他人心理状态(心智理论)的能力时,缺乏针对第一视角视频的有效基准。
- EgoToM利用因果心智理论模型,生成基于Ego4D数据集的多项选择视频问答,用于评估智能体对目标、信念和行为的推理能力。
- 实验表明,多模态大语言模型在目标推理上接近人类水平,但在信念和行为推理上显著低于人类,揭示了现有模型的局限性。
📝 摘要(中文)
本文提出了EgoToM,一个新的视频问答评测基准,旨在将心智理论(ToM)评估扩展到以自我为中心的领域。利用因果ToM模型,我们为Ego4D数据集生成多项选择视频问答实例,以评估模型预测相机佩戴者的目标、信念和后续行为的能力。我们研究了人类和最先进的多模态大型语言模型(MLLM)在这三个相互关联的推理问题上的表现。评估表明,MLLM在从第一视角视频推断目标方面达到了接近人类水平的准确率。然而,在推断相机佩戴者当下的信念状态以及与未见视频未来最一致的未来行为时,MLLM(包括我们测试过的超过1000亿参数的最大模型)的表现不如人类。我们相信,我们的结果将影响未来一类重要的以自我为中心的数字助手的设计,这些助手配备了用户内部心理状态的合理模型。
🔬 方法详解
问题定义:论文旨在解决现有心智理论评估缺乏针对第一视角视频的有效基准的问题。现有方法难以评估智能体在动态、交互式环境中理解他人心理状态的能力,尤其是在自我中心视角下,对观察者的目标、信念和未来行为进行推理极具挑战。
核心思路:论文的核心思路是构建一个基于第一视角视频的心智理论推理评测基准EgoToM。通过生成多项选择视频问答,EgoToM能够系统地评估智能体对观察者目标、信念和未来行为的推理能力。这种方法能够更真实地模拟人类在日常生活中进行心智理论推理的场景。
技术框架:EgoToM的整体框架包括以下几个主要步骤:1) 使用因果心智理论模型生成视频问答实例;2) 将这些实例应用于Ego4D数据集,构建评测基准;3) 评估人类和多模态大型语言模型在基准上的表现;4) 分析结果,揭示现有模型的优势和不足。该框架的核心在于利用因果模型生成高质量的问答对,确保评估的有效性和可靠性。
关键创新:EgoToM最重要的技术创新点在于其针对第一视角视频的心智理论推理评估。与以往主要关注静态场景或第三人称视角的评估方法不同,EgoToM能够更真实地反映人类在日常交互中进行心智理论推理的复杂性。此外,EgoToM利用因果模型生成问答对,保证了评估的科学性和可解释性。
关键设计:EgoToM的关键设计包括:1) 使用Ego4D数据集,保证了数据的真实性和多样性;2) 设计多项选择问答,方便模型进行预测和评估;3) 针对目标、信念和行为三个方面设计问题,全面评估智能体的心智理论推理能力;4) 采用人类表现作为基准,评估模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,多模态大语言模型在从第一视角视频推断目标方面达到了接近人类水平的准确率。然而,在推断相机佩戴者当下的信念状态以及与未见视频未来最一致的未来行为时,MLLM的表现显著低于人类。例如,在信念推理任务上,MLLM的准确率比人类低约15%-20%。这表明现有模型在理解复杂心理状态和进行长期推理方面仍存在较大差距。
🎯 应用场景
EgoToM的研究成果可应用于开发更智能的以自我为中心的数字助手,例如能够理解用户意图并预测其行为的智能眼镜或可穿戴设备。这些助手可以根据用户的心理状态提供个性化的建议和服务,从而提高用户体验和生活质量。此外,该研究也有助于提升机器人在人机交互中的表现,使其能够更好地理解人类的意图和情感。
📄 摘要(原文)
We introduce EgoToM, a new video question-answering benchmark that extends Theory-of-Mind (ToM) evaluation to egocentric domains. Using a causal ToM model, we generate multi-choice video QA instances for the Ego4D dataset to benchmark the ability to predict a camera wearer's goals, beliefs, and next actions. We study the performance of both humans and state of the art multimodal large language models (MLLMs) on these three interconnected inference problems. Our evaluation shows that MLLMs achieve close to human-level accuracy on inferring goals from egocentric videos. However, MLLMs (including the largest ones we tested with over 100B parameters) fall short of human performance when inferring the camera wearers' in-the-moment belief states and future actions that are most consistent with the unseen video future. We believe that our results will shape the future design of an important class of egocentric digital assistants which are equipped with a reasonable model of the user's internal mental states.