Echo-Memory: A Controlled Study of Memory in Action World Models

📄 arXiv: 2606.09803v1 📥 PDF

作者: Wayne King, Zeyue Xue, Yuxuan Bian, Jie Huang, Haoran Li, Yaowei Li, Yaofeng Su, Yuming Li, Haoyu Wang, Shiyi Zhang, Songchun Zhang, Yuwei Niu, Sihan Xu, Junhao Zhuang, Haoyang Huang, Nan Duan

分类: cs.CV, cs.GR, cs.LG

发布日期: 2026-06-08

备注: 9 figures and 28 pages, Code at \href{https://github.com/Echo-Team-Joy-Future-Academy-JD/Echo-Memory}{this URL}


💡 一句话要点

提出Echo-Memory以解决动作世界模型中的记忆问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 动作世界模型 记忆机制 视频生成 重放质量 开放域返回 状态空间递归 多段视频

📋 核心要点

  1. 现有的动作世界模型在记忆机制上存在显著不足,导致场景或显著物体在相机离开后返回时可能发生变化。
  2. Echo-Memory通过固定动作到视频的接口,专注于历史信息的存储和读取方式,提供了一种新的比较框架。
  3. 实验结果表明,原始上下文在开放域返回中表现优异,而紧凑的记忆设计在容量和回忆质量上存在权衡。

📝 摘要(中文)

我们提出了Echo-Memory,这是一个关于动作条件下世界模型中记忆机制的控制研究。这些模型从第一帧、文本提示和相机动作序列生成多段视频,但其主要失败往往源于记忆问题,而非局部图像合成。现有的记忆设计难以比较,因为增益与骨干网络、训练、检索和评估的差异交织在一起。Echo-Memory固定了动作到视频的接口,仅改变历史的存储和读取方式。通过共享的视频扩散骨干、优化器、相机动作表示、采样器和评估管道,我们比较了原始上下文、基于压缩的记忆、不同读取路径的空间摘要和状态空间递归。我们的研究结果为超越孤立重放指标的动作世界模型记忆研究提供了紧凑的协议。

🔬 方法详解

问题定义:本研究旨在解决动作世界模型中记忆机制的不足,现有方法在相机离开后返回时,场景信息可能丢失或变化,导致生成视频的质量下降。

核心思路:Echo-Memory通过固定动作到视频的接口,专注于历史信息的存储和读取方式,确保在不同的记忆设计中进行公平比较。

技术框架:整体架构包括共享的视频扩散骨干、优化器、相机动作表示、采样器和评估管道,比较原始上下文、压缩记忆、空间摘要和状态空间递归等不同记忆设计。

关键创新:本研究的创新在于通过匹配矩阵分离了容量、压缩、读取和递归四个维度,使得不同记忆设计的效果可以独立评估。

关键设计:在实验中,采用了三分支协议评估记忆,包括重放质量、领域内循环重访和开放域返回探测,发现重放保真度并不足以作为记忆的充分代理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,原始上下文作为容量基线在开放域返回中表现优异,提升幅度显著,而紧凑的记忆设计在容量和重放质量上存在权衡。特别是,块状状态空间递归被证明是最强的开放域返回机制,显示出隐式记忆结构的重要性。

🎯 应用场景

该研究的潜在应用领域包括机器人视觉、自动驾驶、虚拟现实等需要生成和理解长视频的场景。通过改进记忆机制,能够提升模型在复杂动态环境中的表现,具有重要的实际价值和未来影响。

📄 摘要(原文)

We present \textbf{Echo-Memory}, a controlled study of memory mechanisms in action-conditioned world models. These models generate multi-segment videos from a first frame, text prompt, and camera-action sequence, but their central failure is often memory rather than local image synthesis: after the camera leaves and returns, the scene or salient object may silently change. Existing memory designs are hard to compare because gains are entangled with backbone, training, retrieval, and evaluation differences. Echo-Memory fixes the action-to-video interface and varies only how history is stored and read by the generator. Under a shared video diffusion backbone, optimizer, camera-action representation, sampler, and evaluation pipeline, we compare raw context, compression-based memory, spatial summaries with different read-out paths, and state-space recurrence. This matched matrix separates four otherwise conflated axes: \emph{capacity}, \emph{compression}, \emph{read-out}, and \emph{recurrence}. We also evaluate memory through a three-branch protocol: replay quality, in-domain loop revisit, and open-domain return probes. The branches routinely disagree, showing that replay fidelity is not a sufficient proxy for remembering a world. Three findings follow. Raw context is a strong capacity baseline and improves open-domain return far more than it improves replay metrics. Compactness is not a free substitute for capacity: aggressive spatial and hybrid-compression memories lose the salient evidence needed for return. Finally, block-wise state-space recurrence is the strongest open-domain return mechanism in our matrix, showing that the structure of implicit memory matters as much as the decision to use it. These results provide a compact protocol for studying memory in action world models beyond isolated replay metrics.