Advancing Narrative Long Video Generation via Training-Free Identity-Aware Memory

作者: Jinzhuo Liu, Jiangning Zhang, Wencan Jiang, Yabiao Wang, Dingkang Liang, Zhucun Xue, Ran Yi, Yong Liu

分类: cs.CV

发布日期: 2026-05-18

备注: Project page: https://eddie0521.github.io/projects/iamflow/ Code: https://github.com/Eddie0521/IAMFlow

💡 一句话要点

提出IAMFlow，通过免训练的身份感知记忆框架，提升叙事性长视频生成的一致性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长视频生成 身份感知 免训练 叙事视频 LLM VLM 一致性 实体跟踪

📋 核心要点

现有长视频生成方法难以处理实体引用转移的提示，导致身份漂移和属性丢失。
IAMFlow通过显式建模和跟踪实体身份，实现跨提示转换的一致性生成，无需训练。
实验表明，IAMFlow在NarraStream-Bench上优于现有基线，并在速度上有所提升。

📝 摘要（中文）

自回归视频生成在视觉逼真度和交互性方面取得了快速进展，但仍存在长期一致性和记忆退化的问题。现有方法通常使用预定义策略压缩历史帧，或基于粗糙的隐式注意力信号检索关键帧，无法处理具有实体引用转移的演变提示，导致身份漂移、角色重复和属性丢失。为了解决这个问题，我们提出了IAMFlow，一个免训练的身份感知记忆框架，显式地建模和跟踪持久的实体身份，从而实现跨提示转换的一致生成。具体来说，LLM从每个提示中提取具有视觉属性的实体，并为身份感知记忆分配唯一的全局ID，而VLM异步地验证和细化渲染帧中的属性，从而实现显式的实体跟踪，而不是基于相似性的隐式匹配。为了保持框架的计算实用性，我们设计了一个系统的推理加速流程，包括异步视觉验证、自适应提示转换和模型量化，从而比现有基线更快地生成视频。此外，我们引入了NarraStream-Bench，一个用于叙事流视频生成的基准，包含324个跨越六个维度的多提示脚本和一个集成了传统指标和基于多模态大语言模型的评估的三维评估协议。大量实验表明，IAMFlow虽然是免训练的，但在NarraStream-Bench上实现了最佳的整体性能，超过了最强的基线2.56分，同时在60秒多提示设置中实现了比最有效的基线快1.39倍的速度。

🔬 方法详解

问题定义：现有自回归视频生成方法在处理叙事性长视频时，面临长期一致性问题，特别是当视频内容涉及多个实体，并且这些实体在不同提示下发生变化时，容易出现身份漂移、角色重复和属性丢失。现有方法要么通过预定义策略压缩历史帧，要么依赖粗糙的隐式注意力机制来检索关键帧，无法有效跟踪和维护实体的身份信息。

核心思路：IAMFlow的核心思路是显式地建模和跟踪视频中出现的实体身份，并利用这些身份信息来指导视频生成过程。通过将实体身份与视觉属性相关联，并在不同提示之间保持身份的一致性，从而避免身份漂移等问题。这种显式建模的方式取代了以往基于相似性的隐式匹配，提高了生成视频的连贯性和一致性。

技术框架：IAMFlow的整体框架包含以下几个主要模块：1) LLM实体提取模块：使用大型语言模型从每个提示中提取实体及其视觉属性。2) 身份分配模块：为每个提取的实体分配一个唯一的全局ID，用于身份感知记忆。3) VLM视觉验证模块：使用视觉语言模型异步地验证和细化渲染帧中的实体属性。4) 视频生成模块：基于身份感知记忆和当前提示生成视频帧。5) 推理加速流程：包括异步视觉验证、自适应提示转换和模型量化，以提高生成速度。

关键创新：IAMFlow最重要的创新点在于其免训练的身份感知记忆框架。与以往需要大量训练数据的方法不同，IAMFlow通过显式地建模和跟踪实体身份，实现了在没有额外训练的情况下，提升长视频生成的一致性。此外，异步视觉验证模块和推理加速流程也是重要的创新，它们提高了生成效率和实用性。

关键设计：IAMFlow的关键设计包括：1) 使用LLM提取实体和属性，利用LLM的强大语义理解能力。2) 使用VLM进行视觉验证，确保实体属性与视觉内容的一致性。3) 设计异步视觉验证流程，避免阻塞生成过程。4) 采用自适应提示转换策略，减少不必要的计算。5) 使用模型量化技术，降低模型大小和计算复杂度。

🖼️ 关键图片

📊 实验亮点

IAMFlow在NarraStream-Bench基准测试中取得了显著的成果，超越了现有最强的基线方法2.56分。同时，在60秒多提示设置下，IAMFlow的生成速度比最有效的基线方法快1.39倍。这些实验结果表明，IAMFlow在生成质量和效率方面都具有优势。

🎯 应用场景

IAMFlow可应用于电影制作、游戏开发、广告创意等领域，能够根据用户提供的剧本或故事梗概，自动生成高质量、连贯一致的叙事性长视频。该技术还可以用于虚拟角色的创建和管理，以及个性化视频内容的生成，具有广阔的应用前景。

📄 摘要（原文）

Autoregressive video generation has improved rapidly in visual fidelity and interactivity, but it still suffers from long-term inconsistency and memory degradation. Most existing solutions either compress historical frames using predefined strategies or retrieve keyframes based on coarse implicit attention signals, both of which fail to handle evolving prompts with shifting entity references, leading to identity drift, character duplication, and attribute loss. To address this, we propose IAMFlow, a training-free identity-aware memory framework that explicitly models and tracks persistent entity identities, enabling consistent generation across prompt transitions. Specifically, an LLM extracts entities with visual attributes from each prompt and assigns unique global IDs for identity-aware memory, while a VLM asynchronously verifies and refines attributes from rendered frames, enabling explicit entity tracking in place of implicit similarity-based matching. To keep the proposed framework computationally practical, we design a systematic inference acceleration pipeline, including asynchronous visual verification, adaptive prompt transition, and model quantization, which achieves faster generation than existing baselines. Furthermore, we introduce NarraStream-Bench, a benchmark for narrative streaming video generation that features 324 multi-prompt scripts spanning six dimensions and a three-dimensional evaluation protocol that integrates both traditional metrics and multimodal large language model-based assessments. Extensive experiments show that IAMFlow, despite being training-free, achieves the best overall performance on NarraStream-Bench, outperforming the strongest baseline by 2.56 points, while achieving a 1.39$\times$ speedup over the most efficient baseline in the 60-second multi-prompt setting.

Advancing Narrative Long Video Generation via Training-Free Identity-Aware Memory

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理