EgoExoMem: Cross-View Memory Reasoning over Synchronized Egocentric and Exocentric Videos
作者: Ruiping Liu, Junwei Zheng, Yufan Chen, Di Wen, Shaofang Quan, Chengzhi Wu, Jiaming Zhang, Kailun Yang, Kunyu Peng, Rainer Stiefelhagen
分类: cs.CV
发布日期: 2026-05-18
备注: The source code and dataset can be found at https://github.com/RuipingL/EgoExoMem
💡 一句话要点
提出EgoExoMem基准,用于同步第一人称和第三人称视频的跨视角记忆推理。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 跨视角推理 第一人称视角 第三人称视角 记忆推理 视频问答 具身智能 多模态学习
📋 核心要点
- 现有具身智能中的第一人称视角记忆在时空推理方面存在局限性,需要结合第三人称视角。
- 提出E$^2$-Select方法,通过相关性预算分配和k-DPP抽样,实现同步双视角视频的有效帧选择。
- 实验表明,第一人称和第三人称视角提供互补信息,但现有MLLM在EgoExoMem基准上表现不佳。
📝 摘要(中文)
本文提出了EgoExoMem,这是一个用于同步第一人称和第三人称视频的跨视角记忆推理基准。EgoExoMem包含2.6K个高质量的多项选择题,涵盖八种时间、空间和跨视角问答类型。为了支持双视角检索,本文提出了一种免训练的帧选择方法E$^2$-Select,用于同步的第一人称和第三人称视频。它结合了基于相关性的预算分配和基于视角的k-DPP抽样,以处理视角不对称和跨视角时间一致性。实验表明,第一人称和第三人称视角提供了互补的记忆线索,但现有的多模态大语言模型(MLLM)距离解决该基准仍有差距:最佳模型仅达到55.3%的准确率。E$^2$-Select在基于帧选择和RAG的记忆基线上实现了58.2%的最新性能。进一步的分析揭示了问题框架和答案定位之间存在的系统性视角偏好冲突,突显了跨视角记忆推理的新颖性和挑战性。
🔬 方法详解
问题定义:现有具身智能主要依赖第一人称视角记忆,但在复杂时空推理任务中存在局限性,无法充分利用环境信息。缺乏一个能够有效评估跨视角记忆推理能力的基准数据集,以及相应的模型和方法。
核心思路:论文的核心思路是结合第一人称(ego)和第三人称(exo)视角的信息,模拟人类从不同视角回忆事件的能力,从而提升时空推理能力。通过构建包含同步双视角视频的问答数据集,并提出相应的帧选择方法,来促进跨视角记忆推理的研究。
技术框架:整体框架包含两个主要部分:EgoExoMem数据集的构建和E$^2$-Select帧选择方法。EgoExoMem数据集包含同步的第一人称和第三人称视频,以及针对这些视频设计的问答题。E$^2$-Select方法用于从双视角视频中选择最具代表性的帧,以供后续的问答模型使用。该方法包含基于相关性的预算分配和基于视角的k-DPP抽样两个阶段。
关键创新:主要的创新点在于:1) 提出了EgoExoMem数据集,这是首个针对同步第一人称和第三人称视频的跨视角记忆推理基准。2) 提出了E$^2$-Select帧选择方法,该方法能够有效地处理视角不对称和跨视角时间一致性问题,无需训练。与现有方法相比,E$^2$-Select更关注双视角信息的互补性,并能更好地适应不同视角的特点。
关键设计:E$^2$-Select的关键设计包括:1) 基于相关性的预算分配,根据每个视角与问题的相关性,动态地分配帧选择的预算。2) 基于视角的k-DPP抽样,利用行列式点过程(DPP)选择最具代表性的帧,同时考虑了帧之间的多样性。具体而言,相关性得分通过计算问题嵌入和视频帧嵌入之间的余弦相似度得到。k-DPP抽样则使用标准的DPP核矩阵,该矩阵基于帧嵌入之间的相似度计算。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EgoExoMem数据集对现有MLLM提出了挑战,最佳模型仅达到55.3%的准确率。E$^2$-Select方法在帧选择和RAG-based记忆基线上取得了58.2%的最新性能,证明了其有效性。进一步的分析揭示了问题框架和答案定位之间存在的系统性视角偏好冲突,表明跨视角记忆推理的复杂性。
🎯 应用场景
该研究成果可应用于机器人导航、智能监控、人机交互等领域。例如,机器人可以利用第一人称视角进行局部探索,同时结合第三人称视角进行全局规划。在智能监控中,可以结合不同摄像头的视角,实现更全面的场景理解和事件检测。该研究也有助于提升多模态大语言模型在具身智能任务中的表现。
📄 摘要(原文)
Egocentric memory is widely used in embodied intelligence, but it may be insufficient for comprehensive spatial-temporal reasoning. Inspired by human recall from both field and observer perspectives, we introduce EgoExoMem, the first benchmark for cross-view memory reasoning over synchronized egocentric and exocentric videos. EgoExoMem contains $2.6K$ high-quality MCQs across eight temporal, spatial, and cross-view QA types. To support dual-view retrieval, we propose E$^2$-Select, a training-free frame selection method for synchronized ego-exo videos. It combines relevance-based budget allocation with per-view k-DPP sampling to handle view asymmetry and cross-view temporal consistency. Experiments show that ego and exo views provide complementary memory cues, while existing MLLMs remain far from solving the benchmark: the best model reaches only $55.3\%$. E$^2$-Select achieves state-of-the-art performance of $58.2\%$ over frame-selection and RAG-based memory baselines. Further analysis reveals systematic view-preference conflicts between question framing and answer grounding, underscoring the novelty and challenge of cross-view memory reasoning.