Video-Only ToM: Enhancing Theory of Mind in Multimodal Large Language Models

📄 arXiv: 2603.24484v1 📥 PDF

作者: Siqi Liu, Xinyang Li, Bochao Zou, Junbao Zhuo, Huimin Ma, Jiansheng Chen

分类: cs.CV

发布日期: 2026-03-25

备注: 20 pages, 7 figures, accepted at CVPR 2026, project page: see https://founce.github.io/VisionToM


💡 一句话要点

提出VisionToM以增强多模态大语言模型的心智理论能力

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态理解 心智理论 视觉导向 干预机制 人机交互 大语言模型 推理能力

📋 核心要点

  1. 现有的ToM评估方法主要依赖文本输入,缺乏对视觉信息的重视,导致模型在真实场景中的表现不足。
  2. 本文提出的VisionToM框架通过计算干预向量,增强了模型在视觉信息处理中的任务感知推理能力。
  3. 实验结果显示,VisionToM在EgoToM基准测试中显著提升了多模态语言模型的ToM能力,并在开放式生成任务中表现出更高的准确性。

📝 摘要(中文)

随着大型语言模型(LLMs)的不断进步,人们对其推断人类心理状态和展现人类心智理论(ToM)的能力越来越感兴趣。然而,现有的ToM评估主要集中在文本输入上,而仅依赖视觉信息的场景则受到较少关注。为了解决这一问题,本文提出了VisionToM,一个旨在增强任务感知推理的视觉导向干预框架。该框架通过计算干预向量,将视觉表示与正确的语义目标对齐,从而引导模型在不同层次的视觉特征中进行注意力调整。实验结果表明,VisionToM显著提升了多模态语言模型的ToM能力,并在开放式生成任务中使模型能够更准确地捕捉代理的心理状态。

🔬 方法详解

问题定义:本文旨在解决现有多模态大语言模型在推断人类心理状态时对视觉信息的忽视,现有方法往往将模型视为黑箱,缺乏对其内部注意力机制的探讨。

核心思路:论文的核心思路是通过VisionToM框架计算干预向量,将视觉表示与正确的语义目标对齐,从而引导模型的注意力,减少对虚假语言先验的依赖。

技术框架:VisionToM框架包括多个模块,首先是视觉特征提取模块,然后是干预向量计算模块,最后是基于干预向量的注意力引导模块,整体流程旨在增强模型的任务感知能力。

关键创新:最重要的技术创新在于引入了视觉导向的干预机制,通过对视觉特征的精细调整,使得模型在多模态任务中表现出更强的推理能力,与传统的文本主导方法形成鲜明对比。

关键设计:在设计中,模型的损失函数考虑了视觉与语义目标的对齐程度,网络结构采用了多层次的视觉特征提取,以确保干预向量的有效性和模型的整体性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在EgoToM基准测试中,VisionToM显著提升了多模态语言模型的ToM能力,具体表现为在三种多项选择问答设置中,模型的准确率提高了约20%。此外,在开放式生成任务中,模型生成的解释更准确地捕捉了代理的心理状态,显示出更高的生成质量。

🎯 应用场景

该研究的潜在应用领域包括人机交互、智能助手和教育技术等,能够提升AI在理解和预测人类行为方面的能力,促进更自然的机器与人类的协作。未来,VisionToM可能在社会机器人和虚拟现实等领域发挥重要作用,推动AI与人类的深度融合。

📄 摘要(原文)

As large language models (LLMs) continue to advance, there is increasing interest in their ability to infer human mental states and demonstrate a human-like Theory of Mind (ToM). Most existing ToM evaluations, however, are centered on text-based inputs, while scenarios relying solely on visual information receive far less attention. This leaves a gap, since real-world human-AI interaction typically requires multimodal understanding. In addition, many current methods regard the model as a black box and rarely probe how its internal attention behaves in multiple-choice question answering (QA). The impact of LLM hallucinations on such tasks is also underexplored from an interpretability perspective. To address these issues, we introduce VisionToM, a vision-oriented intervention framework designed to strengthen task-aware reasoning. The core idea is to compute intervention vectors that align visual representations with the correct semantic targets, thereby steering the model's attention through different layers of visual features. This guidance reduces the model's reliance on spurious linguistic priors, leading to more reliable multimodal language model (MLLM) outputs and better QA performance. Experiments on the EgoToM benchmark-an egocentric, real-world video dataset for ToM with three multiple-choice QA settings-demonstrate that our method substantially improves the ToM abilities of MLLMs. Furthermore, results on an additional open-ended generation task show that VisionToM enables MLLMs to produce free-form explanations that more accurately capture agents' mental states, pushing machine-human collaboration toward greater alignment.