SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

📄 arXiv: 2605.15178v1 📥 PDF

作者: Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie

分类: cs.CV

发布日期: 2026-05-14

备注: https://nvlabs.github.io/Sana/WM/


💡 一句话要点

SANA-WM:高效分钟级世界模型,基于混合线性扩散Transformer

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 世界模型 长视频生成 线性注意力 Transformer 相机控制 视频精炼 高效推理

📋 核心要点

  1. 现有世界模型在生成长时序、高分辨率视频时面临计算资源需求高、训练数据量大的挑战。
  2. SANA-WM通过混合线性注意力、双分支相机控制等创新设计,显著提升了长视频生成的效率和质量。
  3. 实验表明,SANA-WM在保证视觉质量的同时,推理速度提升36倍,并可在消费级GPU上部署。

📝 摘要(中文)

SANA-WM是一个高效的26亿参数开源世界模型,专为一分钟视频生成而设计,能够合成高保真、720p、分钟级的视频,并实现精确的相机控制。SANA-WM在视觉质量上可与LingBot-World和HY-WorldPlay等大型工业基线相媲美,同时显著提高了效率。该架构的核心设计包括:(1) 混合线性注意力,结合了逐帧门控DeltaNet (GDN) 和 softmax 注意力,以实现内存高效的长上下文建模。(2) 双分支相机控制,确保精确的6自由度轨迹跟踪。(3) 两阶段生成流程,将长视频精炼器应用于第一阶段的输出,从而提高序列的质量和一致性。(4) 鲁棒的标注流程,从公共视频中提取准确的度量尺度6自由度相机姿态,以产生高质量、时空一致的动作标签。SANA-WM在数据、训练计算和推理硬件方面表现出卓越的效率:仅使用约21.3万个带有度量尺度姿态监督的公共视频片段,在64个H100上用15天完成训练,并在单个GPU上生成每个60秒的片段;其蒸馏变体可以部署在单个RTX 5090上,使用NVFP4量化在34秒内对60秒的720p片段进行去噪。在一分钟世界模型基准测试中,SANA-WM展示了比现有开源基线更强的动作跟随精度,并实现了相当的视觉质量,但吞吐量提高了36倍,从而实现了可扩展的世界建模。

🔬 方法详解

问题定义:现有世界模型在生成分钟级长视频时,计算成本高昂,难以在消费级硬件上部署。同时,需要大量的训练数据和精确的相机位姿信息,限制了其应用范围。现有方法通常采用复杂的注意力机制或需要大量计算资源的架构,难以兼顾效率和质量。

核心思路:SANA-WM的核心在于通过混合线性注意力机制和双分支相机控制,在保证生成视频质量的同时,显著降低计算复杂度。混合线性注意力结合了门控DeltaNet (GDN) 和 softmax 注意力,实现了高效的长上下文建模。双分支相机控制则确保了相机轨迹的精确跟踪。

技术框架:SANA-WM采用两阶段生成流程。第一阶段生成初步的视频序列,第二阶段使用长视频精炼器对第一阶段的输出进行优化,提高视频的质量和时序一致性。整体架构包括视频编码器、混合线性注意力模块、相机控制模块和视频解码器。鲁棒的标注流程用于从公共视频中提取高质量的相机位姿信息。

关键创新:SANA-WM的关键创新在于混合线性注意力机制,它通过结合GDN和softmax注意力,在降低计算复杂度的同时,保留了长程依赖建模能力。此外,双分支相机控制和两阶段生成流程也显著提高了视频生成的质量和效率。

关键设计:混合线性注意力中的GDN采用门控机制来控制信息的流动,减少冗余计算。双分支相机控制分别处理相机的位置和旋转,确保轨迹的精确性。两阶段生成流程中的长视频精炼器采用Transformer架构,学习视频的时序依赖关系。损失函数包括重建损失、对抗损失和感知损失,以提高视频的视觉质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SANA-WM在分钟级世界模型基准测试中表现出色,在保证视觉质量的前提下,推理速度比现有开源基线提高了36倍。该模型仅使用约21.3万个公共视频片段进行训练,并在64个H100 GPU上用15天完成训练。其蒸馏版本可以在单个RTX 5090 GPU上部署,使用NVFP4量化在34秒内完成60秒720p视频的去噪。

🎯 应用场景

SANA-WM具有广泛的应用前景,包括虚拟现实、游戏开发、机器人仿真、自动驾驶等领域。它可以用于生成逼真的虚拟环境,为用户提供沉浸式的体验。在机器人领域,SANA-WM可以用于训练机器人的运动规划和控制策略。在自动驾驶领域,它可以用于生成各种交通场景,提高自动驾驶系统的鲁棒性。

📄 摘要(原文)

We introduce SANA-WM, an efficient 2.6B-parameter open-source world model natively trained for one-minute generation, synthesizing high-fidelity, 720p, minute-scale videos with precise camera control. SANA-WM achieves visual quality comparable to large-scale industrial baselines such as LingBot-World and HY-WorldPlay, while significantly improving efficiency. Four core designs drive our architecture: (1) Hybrid Linear Attention combines frame-wise Gated DeltaNet (GDN) with softmax attention for memory-efficient long-context modeling. (2) Dual-Branch Camera Control ensures precise 6-DoF trajectory adherence. (3) Two-Stage Generation Pipeline applies a long-video refiner to stage-1 outputs, improving quality and consistency across sequences. (4) Robust Annotation Pipeline extracts accurate metric-scale 6-DoF camera poses from public videos to yield high-quality, spatiotemporally consistent action labels. Driven by these designs, SANA-WMdemonstrates remarkable efficiency across data, training compute, and inference hardware: it uses only $\sim$213K public video clips with metric-scale pose supervision, completes training in 15 days on 64 H100s, and generates each 60s clip on a single GPU; its distilled variant can be deployed on a single RTX 5090 with NVFP4 quantization to denoise a 60s 720p clip in 34s. On our one-minute world-model benchmark, SANA-WM demonstrates stronger action-following accuracy than prior open-source baselines and achieves comparable visual quality at $36\times$ higher throughput for scalable world modeling.