EgoExoBench: A Benchmark for First- and Third-person View Video Understanding in MLLMs
作者: Yuping He, Yifei Huang, Guo Chen, Baoqi Pei, Jilan Xu, Tong Lu, Jiangmiao Pang
分类: cs.CV
发布日期: 2025-07-24
💡 一句话要点
EgoExoBench:首个面向多模态大语言模型的第一人称和第三人称视角视频理解基准
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 第一人称视角 第三人称视角 视频理解 跨视角推理
📋 核心要点
- 现有的多模态大语言模型在跨越第一人称和第三人称视角进行知识迁移和整合方面存在不足,缺乏有效的评估基准。
- EgoExoBench通过构建包含语义对齐、视角关联和时间推理等挑战的问答对,来评估模型在跨视角视频理解和推理方面的能力。
- 实验结果表明,现有最先进的MLLM在单视角任务上表现良好,但在跨视角语义对齐和时间推理方面仍面临挑战。
📝 摘要(中文)
本文提出了EgoExoBench,这是首个用于评估以自我中心(第一人称)和以外部视角(第三人称)视频理解和推理能力的基准。人类智能能够跨越第一人称和第三人称视角进行知识迁移和整合。尽管多模态大语言模型(MLLM)取得了快速进展,但它们在执行这种跨视角推理方面的能力仍未得到充分探索。EgoExoBench基于公开数据集构建,包含超过7300个问答对,涵盖11个子任务,这些子任务被组织成三个核心挑战:语义对齐、视角关联和时间推理。研究评估了13个最先进的MLLM,发现这些模型在单视角任务上表现出色,但在跨视角对齐语义、准确关联视角以及推断自我-外部环境中的时间动态方面存在困难。EgoExoBench旨在为具身智能体和智能助手等领域的研究提供有价值的资源,促进类人跨视角智能的发展。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在理解和推理第一人称(自我中心)和第三人称(外部视角)视频时存在的困难。现有方法主要集中在单视角视频理解,缺乏对跨视角信息整合和推理能力的有效评估。因此,需要一个专门的基准来评估MLLM在语义对齐、视角关联和时间推理等方面的能力。
核心思路:论文的核心思路是构建一个包含多种跨视角理解和推理任务的基准数据集,从而系统地评估MLLM在处理不同视角视频时的能力。通过设计具有挑战性的问答对,可以促使模型学习如何关联不同视角的信息,并进行有效的推理。
技术框架:EgoExoBench基准数据集的构建流程主要包括以下几个阶段:1) 数据收集:从公开可用的第一人称和第三人称视频数据集中收集视频片段。2) 任务设计:设计涵盖语义对齐、视角关联和时间推理等方面的子任务。3) 问答对生成:为每个视频片段生成相应的问答对,确保问题需要模型进行跨视角理解和推理。4) 数据集划分:将数据集划分为训练集、验证集和测试集,用于模型的训练和评估。
关键创新:该论文的关键创新在于提出了首个专门用于评估MLLM在第一人称和第三人称视角视频理解和推理能力的基准数据集。该基准涵盖了多种具有挑战性的子任务,可以更全面地评估模型在跨视角信息整合和推理方面的能力。
关键设计:EgoExoBench包含11个子任务,这些子任务被组织成三个核心挑战:语义对齐(例如,识别不同视角下的相同对象)、视角关联(例如,判断第一人称视角中的动作与第三人称视角中的观察者之间的关系)和时间推理(例如,预测不同视角下事件的先后顺序)。数据集中的问答对设计注重考察模型对跨视角信息的理解和推理能力,例如,问题可能需要模型结合第一人称视角中的操作和第三人称视角中的环境信息来回答。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有的13个最先进的MLLM在EgoExoBench基准上表现不佳,尤其是在跨视角语义对齐和时间推理方面。例如,模型在视角关联任务上的准确率明显低于单视角任务。这表明现有模型在处理跨视角信息时仍存在很大的提升空间,EgoExoBench可以作为未来研究的重要评估工具。
🎯 应用场景
EgoExoBench的潜在应用领域包括:具身智能体(例如,机器人)的开发,使其能够更好地理解人类行为并与之互动;智能助手的构建,使其能够根据用户的视角提供更准确和个性化的服务;以及视频监控和安全领域,用于提高对异常行为的检测和理解能力。该研究将促进跨视角视频理解技术的发展,并为相关应用带来更智能和高效的解决方案。
📄 摘要(原文)
Transferring and integrating knowledge across first-person (egocentric) and third-person (exocentric) viewpoints is intrinsic to human intelligence, enabling humans to learn from others and convey insights from their own experiences. Despite rapid progress in multimodal large language models (MLLMs), their ability to perform such cross-view reasoning remains unexplored. To address this, we introduce EgoExoBench, the first benchmark for egocentric-exocentric video understanding and reasoning. Built from publicly available datasets, EgoExoBench comprises over 7,300 question-answer pairs spanning eleven sub-tasks organized into three core challenges: semantic alignment, viewpoint association, and temporal reasoning. We evaluate 13 state-of-the-art MLLMs and find that while these models excel on single-view tasks, they struggle to align semantics across perspectives, accurately associate views, and infer temporal dynamics in the ego-exo context. We hope EgoExoBench can serve as a valuable resource for research on embodied agents and intelligent assistants seeking human-like cross-view intelligence.