EgoLCD: Egocentric Video Generation with Long Context Diffusion

📄 arXiv: 2512.04515v1 📥 PDF

作者: Liuzhou Zhang, Jiarui Ye, Yuanlei Wang, Ming Zhong, Mingju Cao, Wanke Xia, Bowen Zeng, Zeyu Zhang, Hao Tang

分类: cs.CV

发布日期: 2025-12-04

🔗 代码/项目: GITHUB | PROJECT_PAGE


💡 一句话要点

EgoLCD:基于长时上下文扩散的自我中心视角视频生成框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自我中心视角视频生成 长时上下文建模 扩散模型 记忆管理 具身AI

📋 核心要点

  1. 现有自回归视频生成模型在长时自我中心视角视频生成中存在内容漂移问题,导致物体和场景语义退化。
  2. EgoLCD通过长期稀疏KV缓存和短期记忆结合,并引入记忆正则化损失和结构化叙事提示,实现高效稳定的记忆管理。
  3. 在EgoVid-5M数据集上,EgoLCD在感知质量和时间一致性上均超越现有方法,有效缓解了生成遗忘问题。

📝 摘要(中文)

本文提出EgoLCD,一个用于生成长时连贯的自我中心视角视频的端到端框架。由于手部与物体的交互以及程序性任务需要可靠的长期记忆,生成长视频非常困难。现有的自回归模型容易出现内容漂移,导致物体身份和场景语义随时间推移而退化。EgoLCD将长视频合成视为高效且稳定的记忆管理问题,结合了用于稳定全局上下文的长期稀疏KV缓存、基于注意力机制并由LoRA扩展的短期记忆,以及强制一致记忆使用的记忆正则化损失和提供显式时间指导的结构化叙事提示。在EgoVid-5M基准上的大量实验表明,EgoLCD在感知质量和时间一致性方面均达到了最先进的性能,有效缓解了生成过程中的遗忘问题,代表着在构建具身AI的可扩展世界模型方面迈出了重要一步。

🔬 方法详解

问题定义:论文旨在解决长时自我中心视角视频生成中的内容漂移问题。现有自回归模型在生成长视频时,由于缺乏有效的长期记忆机制,容易出现物体身份和场景语义随时间推移而退化,导致视频内容不连贯。

核心思路:论文的核心思路是将长视频生成视为一个高效且稳定的记忆管理问题。通过维护一个长期记忆和一个短期记忆,并结合记忆正则化损失,来保证生成视频内容的一致性和连贯性。同时,利用结构化叙事提示来提供显式的时间指导,从而更好地控制视频的生成过程。

技术框架:EgoLCD框架主要包含以下几个模块:1) 长期稀疏KV缓存:用于存储全局上下文信息,并采用稀疏注意力机制来提高效率。2) 基于注意力机制的短期记忆:用于存储局部上下文信息,并使用LoRA进行局部自适应。3) 记忆正则化损失:用于强制一致的记忆使用,防止内容漂移。4) 结构化叙事提示:用于提供显式的时间指导。整个框架采用端到端的方式进行训练。

关键创新:EgoLCD的关键创新在于其高效且稳定的记忆管理机制。长期稀疏KV缓存能够有效地存储全局上下文信息,而基于注意力机制的短期记忆能够捕捉局部上下文信息。记忆正则化损失能够有效地防止内容漂移,而结构化叙事提示能够提供显式的时间指导。这些创新使得EgoLCD能够在长时自我中心视角视频生成中取得更好的效果。

关键设计:长期稀疏KV缓存采用稀疏注意力机制,只关注与当前帧相关的关键帧,从而提高效率。短期记忆采用LoRA进行局部自适应,从而更好地捕捉局部上下文信息。记忆正则化损失采用KL散度来衡量长期记忆和短期记忆之间的差异,并强制它们保持一致。结构化叙事提示采用自然语言描述视频的内容,并将其作为模型的输入。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

EgoLCD在EgoVid-5M基准测试中取得了显著的成果,在感知质量和时间一致性方面均超越了现有最先进的方法。具体来说,EgoLCD在FID指标上优于现有方法,并且在用户研究中获得了更高的偏好度评分,表明其生成的视频具有更高的真实感和连贯性。

🎯 应用场景

EgoLCD在具身AI领域具有广泛的应用前景,例如可以用于训练机器人进行复杂的操作任务,或者用于生成虚拟现实环境中的交互式内容。此外,该技术还可以应用于视频编辑、游戏开发等领域,为用户提供更加智能和便捷的视频生成工具。

📄 摘要(原文)

Generating long, coherent egocentric videos is difficult, as hand-object interactions and procedural tasks require reliable long-term memory. Existing autoregressive models suffer from content drift, where object identity and scene semantics degrade over time. To address this challenge, we introduce EgoLCD, an end-to-end framework for egocentric long-context video generation that treats long video synthesis as a problem of efficient and stable memory management. EgoLCD combines a Long-Term Sparse KV Cache for stable global context with an attention-based short-term memory, extended by LoRA for local adaptation. A Memory Regulation Loss enforces consistent memory usage, and Structured Narrative Prompting provides explicit temporal guidance. Extensive experiments on the EgoVid-5M benchmark demonstrate that EgoLCD achieves state-of-the-art performance in both perceptual quality and temporal consistency, effectively mitigating generative forgetting and representing a significant step toward building scalable world models for embodied AI. Code: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.