Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective
作者: Hangjie Yuan, Weihua Chen, Jun Cen, Hu Yu, Jingyun Liang, Shuning Chang, Zhihui Lin, Tao Feng, Pengwei Liu, Jiazheng Xing, Hao Luo, Jiasheng Tang, Fan Wang, Yi Yang
分类: cs.CV, cs.AI, cs.MM
发布日期: 2025-07-11
备注: Code and Models: https://github.com/alibaba-damo-academy/Lumos
🔗 代码/项目: GITHUB
💡 一句话要点
Lumos-1:提出一种统一的自回归视频生成模型,提升生成质量和效率。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自回归视频生成 大型语言模型 时空建模 位置编码 损失平衡
📋 核心要点
- 现有自回归视频生成器偏离标准LLM架构,依赖笨重的外部文本编码器,或因逐token解码而导致高延迟。
- Lumos-1通过最小的架构修改保留LLM架构,并引入MM-RoPE来建模时空相关性,同时采用AR-DF解决帧间损失不平衡问题。
- Lumos-1仅使用48个GPU进行预训练,在多个视频生成benchmark上取得了与现有SOTA模型相当甚至更好的性能。
📝 摘要(中文)
本文介绍Lumos-1,一种自回归视频生成器,它保留了LLM架构并进行了最小的架构修改。为了在LLM中注入时空相关性,本文验证了3D RoPE的有效性,并诊断了其不平衡的频谱范围。因此,提出MM-RoPE,一种RoPE方案,它保留了原始的文本RoPE,同时为建模多模态时空数据提供了全面的频谱和缩放的3D位置。此外,Lumos-1采用了一种token依赖策略,该策略遵循帧内双向性和帧间时间因果关系。基于这种依赖策略,本文发现了由空间信息冗余引起的帧间损失不平衡问题,并通过提出自回归离散扩散强制(AR-DF)来解决这个问题。AR-DF在训练期间引入时间管掩码,并采用兼容的推理时掩码策略,以避免质量下降。通过使用内存高效的训练技术,Lumos-1仅在48个GPU上进行预训练,在GenEval上实现了与EMU3相当的性能,在VBench-I2V上实现了与COSMOS-Video2World相当的性能,在VBench-T2V上实现了与OpenSoraPlan相当的性能。
🔬 方法详解
问题定义:现有自回归视频生成模型存在三个主要问题:一是架构上与标准LLM差异较大;二是依赖于外部文本编码器,增加了模型复杂度;三是逐token解码导致推理延迟过高。此外,帧间存在信息冗余,导致训练时帧间损失不平衡,影响生成质量。
核心思路:Lumos-1的核心思路是在保留标准LLM架构的基础上,通过引入MM-RoPE来有效建模视频的时空相关性,并采用AR-DF解决帧间损失不平衡问题。这种设计旨在充分利用LLM的强大能力,同时避免引入额外的复杂性和延迟。
技术框架:Lumos-1的整体框架基于标准的自回归LLM架构。主要包括以下几个关键模块:1) 嵌入层:将文本和视频token嵌入到统一的向量空间;2) MM-RoPE:用于编码视频帧的时空位置信息;3) Transformer层:用于建模token之间的依赖关系;4) AR-DF:用于解决帧间损失不平衡问题;5) 解码层:将向量表示解码为视频token。
关键创新:Lumos-1的关键创新在于MM-RoPE和AR-DF的设计。MM-RoPE通过保留原始文本RoPE的同时,提供全面的频谱和缩放的3D位置,从而更有效地建模多模态时空数据。AR-DF通过在训练期间引入时间管掩码,并采用兼容的推理时掩码策略,从而避免质量下降,解决了帧间损失不平衡问题。
关键设计:MM-RoPE的关键设计在于其频率谱的平衡和3D位置的缩放。AR-DF的关键设计在于时间管掩码的策略,以及训练和推理时掩码策略的一致性。此外,Lumos-1还采用了内存高效的训练技术,使其能够在有限的GPU资源上进行预训练。
🖼️ 关键图片
📊 实验亮点
Lumos-1在GenEval上实现了与EMU3相当的性能,在VBench-I2V上实现了与COSMOS-Video2World相当的性能,在VBench-T2V上实现了与OpenSoraPlan相当的性能。值得注意的是,Lumos-1仅使用48个GPU进行预训练,这表明其具有较高的训练效率。
🎯 应用场景
Lumos-1具有广泛的应用前景,包括视频编辑、游戏开发、电影制作、虚拟现实等领域。它可以用于生成各种类型的视频内容,例如故事视频、产品演示视频、教育视频等。此外,Lumos-1还可以用于视频修复、视频增强等任务,提升视频质量和用户体验。
📄 摘要(原文)
Autoregressive large language models (LLMs) have unified a vast range of language tasks, inspiring preliminary efforts in autoregressive video generation. Existing autoregressive video generators either diverge from standard LLM architectures, depend on bulky external text encoders, or incur prohibitive latency due to next-token decoding. In this paper, we introduce Lumos-1, an autoregressive video generator that retains the LLM architecture with minimal architectural modifications. To inject spatiotemporal correlations in LLMs, we identify the efficacy of incorporating 3D RoPE and diagnose its imbalanced frequency spectrum ranges. Therefore, we propose MM-RoPE, a RoPE scheme that preserves the original textual RoPE while providing comprehensive frequency spectra and scaled 3D positions for modeling multimodal spatiotemporal data. Moreover, Lumos-1 resorts to a token dependency strategy that obeys intra-frame bidirectionality and inter-frame temporal causality. Based on this dependency strategy, we identify the issue of frame-wise loss imbalance caused by spatial information redundancy and solve it by proposing Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF introduces temporal tube masking during training with a compatible inference-time masking policy to avoid quality degradation. By using memory-efficient training techniques, we pre-train Lumos-1 on only 48 GPUs, achieving performance comparable to EMU3 on GenEval, COSMOS-Video2World on VBench-I2V, and OpenSoraPlan on VBench-T2V. Code and models are available at https://github.com/alibaba-damo-academy/Lumos.