Through the Theory of Mind's Eye: Reading Minds with Multimodal Video Large Language Models

📄 arXiv: 2406.13763v2 📥 PDF

作者: Zhawnen Chen, Tianchun Wang, Yizhou Wang, Michal Kosinski, Xiang Zhang, Yun Fu, Sheng Li

分类: cs.CV, cs.AI

发布日期: 2024-06-19 (更新: 2025-09-15)


💡 一句话要点

提出基于多模态视频大语言模型的心理理论(ToM)推理框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心理理论 多模态学习 视频理解 大语言模型 情感推理

📋 核心要点

  1. 现有大型语言模型在文本ToM任务上表现出一定能力,但缺乏对动态时空场景下人类推理的考察。
  2. 论文提出一种基于视频和文本的多模态LLM流水线,用于显式地进行ToM推理,并探究其推理过程。
  3. 通过检索关键帧来辅助ToM问题解答,从而揭示多模态LLM如何进行心理理论推理。

📝 摘要(中文)

本文旨在探索大型多模态模型是否具备类似人类的情感和社会推理能力,以及这种能力是如何运作的。近期研究表明,大型语言模型(LLMs)展现出涌现的心理理论(ToM)推理能力,能够通过解决各种基于文本的ToM任务来推断人们的心理状态(例如,人类的信念、愿望、意图)。然而,现实世界中的人类推理通常基于随时间变化的动态场景。因此,本文将视频视为检验时空ToM推理能力的新媒介。具体而言,本文针对包含丰富社会和情感推理内容的视频提出明确的探测问题。本文开发了一个用于ToM推理的多模态LLM流水线,该流水线使用视频和文本。此外,本文通过检索关键帧来回答ToM问题,从而实现显式的ToM推理,并揭示多模态LLM如何进行ToM推理。

🔬 方法详解

问题定义:论文旨在研究大型多模态模型在理解和推理视频中人物心理状态(Theory of Mind, ToM)方面的能力。现有方法主要集中在文本领域的ToM推理,缺乏对动态视频场景的有效处理。痛点在于如何让模型理解视频中的人物行为,并推断其潜在的信念、意图和情感。

核心思路:论文的核心思路是利用多模态大语言模型(Multimodal LLM)同时处理视频和文本信息,通过显式地提出关于视频内容的ToM问题,并观察模型的回答,来评估其ToM推理能力。关键在于设计合适的视频输入方式和问题形式,以及如何解释模型的推理过程。

技术框架:整体框架包含以下几个主要模块:1) 视频输入模块:将视频转换为一系列关键帧;2) 问题生成模块:针对视频内容生成ToM相关的问题;3) 多模态LLM推理模块:将关键帧和问题输入到多模态LLM中进行推理,得到答案;4) 关键帧检索模块:根据问题检索与ToM推理相关的关键帧,用于解释模型的推理过程。

关键创新:最重要的技术创新点在于将多模态LLM应用于视频ToM推理,并提出了一种通过检索关键帧来解释模型推理过程的方法。与现有方法相比,该方法能够更好地模拟人类在动态场景下的ToM推理过程,并提供对模型推理过程的可解释性。

关键设计:关键设计包括:1) 选择合适的关键帧提取策略,以保留视频中的关键信息;2) 设计清晰明确的ToM问题,以准确评估模型的推理能力;3) 使用合适的损失函数来训练多模态LLM,使其能够更好地理解视频内容和进行ToM推理;4) 设计有效的关键帧检索算法,以找到与ToM推理相关的关键帧。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文通过实验验证了多模态LLM在视频ToM推理方面的潜力。通过对不同模型的对比分析,发现某些模型在特定类型的ToM问题上表现出较强的推理能力。关键帧检索结果也揭示了模型进行ToM推理的依据,为进一步提升模型的推理能力提供了指导。

🎯 应用场景

该研究成果可应用于智能监控、人机交互、社交机器人等领域。例如,智能监控系统可以利用ToM推理能力来识别异常行为,社交机器人可以更好地理解人类的情感和意图,从而进行更自然和有效的交互。未来,该技术有望在心理学研究、教育培训等领域发挥重要作用。

📄 摘要(原文)

Can large multimodal models have a human-like ability for emotional and social reasoning, and if so, how does it work? Recent research has discovered emergent theory-of-mind (ToM) reasoning capabilities in large language models (LLMs). LLMs can reason about people's mental states by solving various text-based ToM tasks that ask questions about the actors' ToM (e.g., human belief, desire, intention). However, human reasoning in the wild is often grounded in dynamic scenes across time. Thus, we consider videos a new medium for examining spatio-temporal ToM reasoning ability. Specifically, we ask explicit probing questions about videos with abundant social and emotional reasoning content. We develop a pipeline for multimodal LLM for ToM reasoning using video and text. We also enable explicit ToM reasoning by retrieving key frames for answering a ToM question, which reveals how multimodal LLMs reason about ToM.