Loong: Generating Minute-level Long Videos with Autoregressive Language Models

作者: Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu

分类: cs.CV

发布日期: 2024-10-03 (更新: 2025-04-02)

备注: Project page: https://yuqingwang1029.github.io/Loong-video

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

Loong：提出一种基于自回归语言模型的分钟级长视频生成方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长视频生成 自回归模型 大型语言模型 文本到视频 渐进式训练

📋 核心要点

现有基于自回归LLM的视频生成器难以生成分钟级长视频，面临着训练不稳定和推理误差累积等挑战。
Loong将文本和视频token统一建模，采用渐进式训练和损失重加权，并优化推理策略，从而实现长视频生成。
Loong在10秒视频上训练后，能够生成分钟级的长视频，证明了其在长视频生成方面的有效性。

📝 摘要（中文）

本文提出了一种名为Loong的新的基于自回归大型语言模型（LLM）的视频生成器，旨在生成分钟级的、内容丰富的长视频。现有的基于自回归LLM的视频生成方法主要集中于生成几秒钟的短视频，本文深入分析了阻碍其生成长视频的挑战。Loong将文本token和视频token建模为统一的序列，并从头开始训练模型。为了缓解长视频训练中的损失不平衡问题，提出了渐进式的由短到长的训练方法，并结合损失重加权方案。此外，还研究了推理策略，包括视频token重编码和采样策略，以减少推理过程中的误差累积。实验结果表明，Loong可以在10秒视频上进行训练，并扩展到生成由文本提示引导的分钟级长视频。

🔬 方法详解

问题定义：现有基于自回归LLM的视频生成方法在生成长视频时面临诸多挑战。首先，长视频序列导致训练难度增加，损失函数容易出现不平衡，影响模型收敛。其次，推理过程中，自回归生成方式容易导致误差累积，使得生成的视频质量下降。此外，如何有效地将文本信息融入到长视频生成过程中也是一个难题。

核心思路：Loong的核心思路是将文本和视频token视为统一的序列，并利用自回归LLM进行建模。通过这种方式，模型可以学习到文本和视频之间的关联，并生成与文本描述相符的视频内容。为了解决长视频训练中的问题，Loong采用了渐进式训练和损失重加权策略。同时，在推理阶段，通过视频token重编码和采样策略来减少误差累积。

技术框架：Loong的整体框架包括以下几个主要模块：1) 文本和视频token嵌入模块，将文本和视频转换为token序列；2) 自回归LLM，用于学习token序列的分布并生成新的token；3) 视频解码器，将生成的视频token转换为实际的视频帧。训练过程采用渐进式训练策略，首先在短视频上进行训练，然后逐步增加视频长度。推理过程采用自回归方式，逐帧生成视频。

关键创新：Loong的关键创新在于以下几个方面：1) 提出了一种统一的文本和视频token建模方法，使得模型可以同时学习文本和视频的特征；2) 提出了渐进式训练和损失重加权策略，有效缓解了长视频训练中的损失不平衡问题；3) 提出了视频token重编码和采样策略，减少了推理过程中的误差累积。

关键设计：Loong的关键设计包括：1) 采用Transformer架构作为自回归LLM的基础模型；2) 使用交叉熵损失函数来训练模型；3) 在渐进式训练过程中，逐步增加视频长度，并调整损失函数的权重，以平衡不同长度视频的训练；4) 在推理过程中，采用多种采样策略，如Top-k采样和Nucleus采样，以提高生成视频的多样性。

🖼️ 关键图片

📊 实验亮点

Loong通过渐进式训练和损失重加权策略，成功地将模型训练扩展到分钟级长视频生成。实验结果表明，Loong在生成长视频的质量和连贯性方面均优于现有方法。通过文本提示，Loong能够生成与描述相符的、内容丰富的长视频，展示了其强大的视频生成能力。

🎯 应用场景

Loong在视频内容创作、电影制作、游戏开发等领域具有广泛的应用前景。它可以根据文本描述自动生成长视频，降低了视频制作的门槛，提高了创作效率。此外，Loong还可以用于生成虚拟现实和增强现实内容，为用户提供更加沉浸式的体验。未来，Loong有望成为视频生成领域的重要工具。

📄 摘要（原文）

It is desirable but challenging to generate content-rich long videos in the scale of minutes. Autoregressive large language models (LLMs) have achieved great success in generating coherent and long sequences of tokens in the domain of natural language processing, while the exploration of autoregressive LLMs for video generation is limited to generating short videos of several seconds. In this work, we conduct a deep analysis of the challenges that prevent autoregressive LLM-based video generators from generating long videos. Based on the observations and analysis, we propose Loong, a new autoregressive LLM-based video generator that can generate minute-long videos. Specifically, we model the text tokens and video tokens as a unified sequence for autoregressive LLMs and train the model from scratch. We propose progressive short-to-long training with a loss re-weighting scheme to mitigate the loss imbalance problem for long video training. We further investigate inference strategies, including video token re-encoding and sampling strategies, to diminish error accumulation during inference. Our proposed Loong can be trained on 10-second videos and be extended to generate minute-level long videos conditioned on text prompts, as demonstrated by the results. More samples are available at: https://yuqingwang1029.github.io/Loong-video.

Loong: Generating Minute-level Long Videos with Autoregressive Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理