MonarchRT: Efficient Attention for Real-Time Video Generation

📄 arXiv: 2602.12271v1 📥 PDF

作者: Krish Agarwal, Zhuoming Chen, Cheng Luo, Yongqi Chen, Haizhong Zheng, Xun Huang, Atri Rudra, Beidi Chen

分类: cs.CV, cs.LG

发布日期: 2026-02-12


💡 一句话要点

MonarchRT:一种高效注意力机制,用于实时视频生成。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 实时视频生成 扩散Transformer 注意力机制 Monarch矩阵 稀疏注意力 计算效率 Triton内核

📋 核心要点

  1. 现有基于扩散Transformer的视频生成方法,在实时性要求高的场景下,3D自注意力的计算成本过高,成为性能瓶颈。
  2. 提出 Monarch-RT,一种基于 Monarch 矩阵分解的结构化注意力参数化方法,旨在提高计算效率的同时保持高表达性。
  3. 实验表明,Monarch-RT 在保证视频生成质量的同时,实现了高达 95% 的注意力稀疏性,并在多种 GPU 上实现了显著的内核加速。

📝 摘要(中文)

扩散Transformer在实时视频生成中面临3D自注意力的二次方计算成本瓶颈,尤其是在步数少且自回归的实时场景下,误差会随时间累积,每个去噪步骤必须携带更多信息。在这种情况下,我们发现先前的稀疏注意力近似方法失效,尽管它们在双向、多步扩散中表现出色。具体而言,我们观察到视频注意力并非可靠地稀疏,而是结合了由时空位置驱动的显著周期性结构、动态稀疏的语义对应关系和密集混合,超出了甚至oracle top-k注意力的表征能力。基于此,我们提出了Monarch-RT,一种用于视频扩散模型的结构化注意力参数化方法,它使用Monarch矩阵分解注意力。通过适当对齐的块结构和我们扩展的平铺Monarch参数化,我们在保持计算效率的同时实现了高表达性。我们通过微调和定制的Triton内核进一步克服了参数化的开销。我们首先验证了Monarch-RT相对于仅为双向模型设计的现有稀疏基线的高效性。我们进一步观察到,当应用于最先进的Self-Forcing模型时,Monarch-RT可以在质量无损的情况下实现高达95%的注意力稀疏性,这使得Monarch-RT成为实时视频生成中高性能稀疏注意力参数化的先驱工作。我们优化的实现在Nvidia RTX 5090、H100和B200 GPU上分别优于FlashAttention-2、FlashAttention-3和FlashAttention-4内核,提供了1.4-11.8倍的内核加速。这使我们首次能够在单个RTX 5090上以16 FPS的速度使用Self-Forcing实现真正的实时视频生成。

🔬 方法详解

问题定义:论文旨在解决实时视频生成中,基于扩散Transformer的模型的3D自注意力计算复杂度过高的问题。现有稀疏注意力方法在实时、自回归的视频生成场景下表现不佳,无法有效捕捉视频中的时空依赖关系和语义信息,导致生成质量下降。

核心思路:论文的核心思路是利用 Monarch 矩阵分解来参数化注意力矩阵,从而降低计算复杂度。Monarch 矩阵具有结构化的稀疏性,可以高效地进行矩阵乘法运算。通过合理设计块结构和扩展的平铺 Monarch 参数化,可以在保持高表达性的同时,实现计算效率的提升。

技术框架:Monarch-RT 被集成到现有的视频扩散模型中,替换原有的自注意力模块。整体流程与标准的扩散模型类似,包括前向扩散过程和反向去噪过程。在去噪过程中,Monarch-RT 用于计算视频帧之间的注意力权重,从而指导图像生成。论文还使用了定制的 Triton 内核来优化 Monarch 矩阵乘法的计算效率。

关键创新:论文的关键创新在于提出了 Monarch-RT,一种基于 Monarch 矩阵分解的结构化注意力参数化方法。与传统的稀疏注意力方法相比,Monarch-RT 能够更好地捕捉视频中的时空依赖关系和语义信息,同时保持计算效率。此外,论文还通过微调和定制的 Triton 内核进一步优化了 Monarch-RT 的性能。

关键设计:论文使用了适当对齐的块结构和扩展的平铺 Monarch 参数化,以提高 Monarch-RT 的表达能力。具体来说,论文将注意力矩阵划分为多个块,并对每个块应用 Monarch 矩阵分解。此外,论文还使用了微调策略来优化 Monarch 矩阵的参数,并定制了 Triton 内核来加速 Monarch 矩阵乘法的计算。

📊 实验亮点

实验结果表明,Monarch-RT 在保证视频生成质量的同时,实现了高达 95% 的注意力稀疏性。在 Nvidia RTX 5090、H100 和 B200 GPU 上,Monarch-RT 的内核速度分别比 FlashAttention-2、FlashAttention-3 和 FlashAttention-4 快 1.4-11.8 倍。使用 Monarch-RT,研究者首次能够在单个 RTX 5090 上以 16 FPS 的速度使用 Self-Forcing 实现真正的实时视频生成。

🎯 应用场景

该研究成果可应用于实时视频生成、视频编辑、视频压缩等领域。通过降低计算复杂度,Monarch-RT 有望在资源受限的设备上实现高质量的视频生成,例如移动设备、嵌入式系统等。此外,该方法还可以用于加速视频分析和理解任务,例如视频目标检测、视频行为识别等。

📄 摘要(原文)

Real-time video generation with Diffusion Transformers is bottlenecked by the quadratic cost of 3D self-attention, especially in real-time regimes that are both few-step and autoregressive, where errors compound across time and each denoising step must carry substantially more information. In this setting, we find that prior sparse-attention approximations break down, despite showing strong results for bidirectional, many-step diffusion. Specifically, we observe that video attention is not reliably sparse, but instead combines pronounced periodic structure driven by spatiotemporal position with dynamic, sparse semantic correspondences and dense mixing, exceeding the representational capacity of even oracle top-k attention. Building on this insight, we propose Monarch-RT, a structured attention parameterization for video diffusion models that factorizes attention using Monarch matrices. Through appropriately aligned block structure and our extended tiled Monarch parameterization, we achieve high expressivity while preserving computational efficiency. We further overcome the overhead of parameterization through finetuning, with custom Triton kernels. We first validate the high efficacy of Monarch-RT over existing sparse baselines designed only for bidirectional models. We further observe that Monarch-RT attains up to 95% attention sparsity with no loss in quality when applied to the state-of-the-art model Self-Forcing, making Monarch-RT a pioneering work on highly-capable sparse attention parameterization for real-time video generation. Our optimized implementation outperforms FlashAttention-2, FlashAttention-3, and FlashAttention-4 kernels on Nvidia RTX 5090, H100, and B200 GPUs respectively, providing kernel speedups in the range of 1.4-11.8X. This enables us, for the first time, to achieve true real-time video generation with Self-Forcing at 16 FPS on a single RTX 5090.