EGOSTREAM: A Diagnostic Benchmark for Streaming Episodic Memory in Egocentric Vision

📄 arXiv: 2605.31557v1 📥 PDF

作者: Rosario Forte, Giuseppe Lando, Antonino Furnari

分类: cs.CV

发布日期: 2026-05-29


💡 一句话要点

提出EGOSTREAM,用于评估以自我为中心的视觉流式情景记忆的诊断基准。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 情景记忆 自我中心视觉 流式视频 诊断基准 多模态大语言模型

📋 核心要点

  1. 现有流式视频基准测试在诊断模型记忆内容和记忆时长方面存在局限性,无法有效评估连续情景记忆。
  2. EGOSTREAM基准通过引入答案有效窗口(AVW)和七个认知维度的问题,实现了对模型记忆能力的细粒度诊断。
  3. 实验表明,不同的内存管理机制(如token修剪和量化卸载)在不同认知维度上表现迥异,但整体性能仍有提升空间。

📝 摘要(中文)

连续情景记忆是自主智能体在动态真实世界环境中运行的核心能力,但现有的流式视频基准测试在诊断模型记忆内容和记忆时长方面提供的工具有限。我们引入了EGOSTREAM,这是一个用于评估以自我为中心的视觉流式情景记忆的诊断基准。EGOSTREAM围绕七个认知维度组织了2250个精心策划的问题:细节、空间、时间、事件、社交、因果和前瞻性记忆。我们引入了答案有效窗口(AVW),它指定了答案在观察到的场景演变过程中保持有效的时间跨度。这使我们能够将问题扩展到8528个以回忆为条件的评估,从而实现从即时到超长期回忆的受控测试,同时将真正的模型遗忘与自然世界状态变化区分开来。我们通过统一的流式MLLM框架严格地建立了基线性能,该框架比较了几种最先进的内存管理机制,包括滑动窗口、注意力汇、KV缓存修剪、合并和卸载。在统一的Qwen3-VL骨干网络中的实验表明,可比的总体准确率掩盖了截然不同的内存配置文件。例如,token修剪比token合并更好地保留了细粒度的细节和时间结构,而量化卸载则挽救了超长期回忆。最终,所有机制的运行速度都远低于实时(每帧>1秒),并且性能最佳的方法的准确率上限约为45%,暴露了当前架构中的关键差距。EGOSTREAM提供了弥合这些差距所需的诊断测试平台。

🔬 方法详解

问题定义:现有方法难以诊断流式视频中模型记忆的内容和记忆时长,无法区分模型遗忘和环境变化,缺乏对情景记忆的细粒度评估。这阻碍了自主智能体在动态环境中有效运行。

核心思路:EGOSTREAM的核心在于提供一个诊断基准,通过精心设计的问题和答案有效窗口(AVW),来评估模型在不同认知维度上的记忆能力。AVW允许区分模型遗忘和环境变化,从而更准确地评估模型的记忆性能。

技术框架:EGOSTREAM包含以下主要组成部分:1) 数据集:包含以自我为中心的视频流和围绕七个认知维度(细节、空间、时间、事件、社交、因果和前瞻性记忆)设计的2250个问题。2) 答案有效窗口(AVW):定义了答案在视频流中保持有效的时间范围。3) 评估协议:基于AVW,将问题扩展为8528个以回忆为条件的评估,用于测试模型的记忆能力。4) 基线模型:使用统一的流式MLLM框架(Qwen3-VL)和多种内存管理机制(滑动窗口、注意力汇、KV缓存修剪、合并和卸载)建立基线性能。

关键创新:EGOSTREAM的关键创新在于:1) 诊断性问题设计:围绕七个认知维度设计问题,可以细粒度地评估模型的记忆能力。2) 答案有效窗口(AVW):AVW允许区分模型遗忘和环境变化,从而更准确地评估模型的记忆性能。3) 统一的评估框架:提供了一个统一的流式MLLM框架,方便研究人员比较不同的内存管理机制。

关键设计:答案有效窗口(AVW)是关键设计之一,它定义了答案在视频流中保持有效的时间范围。AVW的长度取决于问题的类型和视频的内容。例如,对于“桌子上有什么?”这样的问题,AVW可能很短,因为桌子上的物品可能会很快发生变化。而对于“发生了什么事件?”这样的问题,AVW可能很长,因为事件的发生需要一定的时间。

📊 实验亮点

实验结果表明,不同的内存管理机制在不同的认知维度上表现迥异。例如,token修剪在保留细节和时间结构方面优于token合并,而量化卸载则有助于超长期回忆。然而,所有机制的运行速度都远低于实时,并且性能最佳的方法的准确率上限约为45%,表明当前架构仍有很大的改进空间。

🎯 应用场景

EGOSTREAM可应用于开发更强大的自主智能体,例如机器人、自动驾驶汽车和智能助手。通过诊断和改进情景记忆能力,这些智能体可以更好地理解和适应动态环境,从而提高其在现实世界中的性能和可靠性。此外,该基准还有助于推动多模态大语言模型在视频理解和长期记忆方面的研究。

📄 摘要(原文)

Continuous episodic memory is a core capability for autonomous agents operating in dynamic, real-world environments, yet current streaming video benchmarks provide limited tools for diagnosing what models remember and for how long. We introduce \egostream, a diagnostic benchmark for streaming episodic memory evaluation in egocentric vision. \egostream organizes 2,250 curated questions along seven cognitive dimensions: detail, spatial, temporal, event, social, causal, and prospective memory. We introduce the Answer Validity Window (AVW), which specifies the temporal span an answer remains valid as the observed scene evolves. This allows us to expand the questions into 8,528 recall-conditioned evaluations, enabling controlled testing from instant to ultra-long-term recall while separating genuine model forgetting from natural world-state changes. We rigorously establish baseline performance through a unified streaming MLLM framework that compares several state-of-the-art memory-management mechanisms, covering sliding windows, attention sinks, KV-cache pruning, merging, and offloading. Experiments within a unified Qwen3-VL backbone reveal that comparable aggregate accuracies mask starkly different memory profiles. For instance, token pruning preserves fine-grained details and temporal structure significantly better than token merging, while quantized offloading rescues ultra-long-term recall. Ultimately, all mechanisms operate well below real-time (>1s per frame), and top performing methods ceil at about 45\% accuracy, exposing critical gaps in current architectures. \egostream provides the diagnostic testbed needed to close these gaps.