DynamicRad: Content-Adaptive Sparse Attention for Long Video Diffusion
作者: Yongji Long, Shijun Liang, Jintao Li, Yun Li
分类: cs.CV
发布日期: 2026-04-22
🔗 代码/项目: GITHUB
💡 一句话要点
DynamicRad:面向长视频扩散的内容自适应稀疏注意力加速方法
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 长视频扩散 稀疏注意力 内容自适应 贝叶斯优化 视频生成
📋 核心要点
- 现有视频扩散模型依赖静态稀疏掩码,难以捕捉复杂动态中的长程信息,导致性能瓶颈。
- DynamicRad提出双模式稀疏注意力,结合静态比例和动态阈值,自适应选择关键时空信息。
- 通过离线贝叶斯优化和语义运动路由,DynamicRad在保证质量的同时,显著提升了推理速度。
📝 摘要(中文)
本文提出DynamicRad,一种统一的稀疏注意力范式,它在径向局部性先验中进行自适应选择。DynamicRad引入了一种双模式策略:static-ratio模式用于速度优化执行,dynamic-threshold模式用于质量优先过滤。为了确保鲁棒性且避免在线搜索开销,集成了离线贝叶斯优化(BO)流程,并结合语义运动路由器。该轻量级投影模块将提示嵌入映射到具有最小运行时开销的最佳稀疏度方案。与在线分析方法不同,离线BO优化基于物理代理任务的注意力重建误差(MSE),确保快速收敛。在HunyuanVideo和Wan2.1-14B上的实验表明,DynamicRad推动了效率-质量帕累托前沿,实现了1.7倍-2.5倍的推理加速,以及超过80%的有效稀疏性。在一些长序列设置中,动态模式甚至可以匹配或超过密集基线,而mask-aware LoRA进一步提高了长时程一致性。
🔬 方法详解
问题定义:长视频扩散模型计算成本高昂,尤其是在注意力机制上。现有的稀疏注意力方法通常采用静态的稀疏模式,无法根据视频内容动态调整,导致关键信息的丢失,限制了模型性能。因此,如何在保证生成质量的前提下,有效地降低长视频扩散模型的计算复杂度是一个关键问题。
核心思路:DynamicRad的核心思路是利用视频中自然的时空能量衰减特性,并结合内容自适应的稀疏注意力机制。通过学习一个轻量级的语义运动路由器,将prompt信息映射到最佳的稀疏模式,从而在保证关键信息不丢失的前提下,尽可能地减少计算量。双模式策略允许根据需求选择速度优先或质量优先的模式。
技术框架:DynamicRad的整体框架包含以下几个主要模块:1) 视频扩散模型:作为基础的生成模型。2) 稀疏注意力模块:使用径向局部性先验,并根据内容自适应地选择需要关注的区域。3) 语义运动路由器:一个轻量级的神经网络,用于将prompt嵌入映射到最佳的稀疏度参数。4) 离线贝叶斯优化:用于优化语义运动路由器的参数,使其能够准确地预测最佳稀疏度。整体流程是,首先使用prompt通过语义运动路由器预测稀疏度参数,然后将这些参数传递给稀疏注意力模块,最终生成视频。
关键创新:DynamicRad的关键创新在于其内容自适应的稀疏注意力机制和离线贝叶斯优化策略。与传统的静态稀疏注意力方法不同,DynamicRad能够根据视频内容动态调整稀疏模式,从而更好地捕捉关键信息。离线贝叶斯优化避免了在线搜索的开销,保证了模型的推理速度。语义运动路由器是一个轻量级的模块,可以快速地将prompt信息映射到最佳的稀疏度参数。
关键设计:DynamicRad的关键设计包括:1) 双模式稀疏注意力:static-ratio模式和dynamic-threshold模式,分别适用于速度优先和质量优先的场景。2) 径向局部性先验:限制了注意力的范围,减少了计算量。3) 语义运动路由器:使用一个简单的神经网络(例如MLP)将prompt嵌入映射到稀疏度参数。4) 离线贝叶斯优化:使用基于物理的代理任务(注意力重建误差MSE)来优化语义运动路由器的参数。5) Mask-aware LoRA:用于进一步提高长时程一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DynamicRad在HunyuanVideo和Wan2.1-14B数据集上实现了1.7倍-2.5倍的推理加速,同时保持了较高的生成质量。有效稀疏度超过80%,表明该方法能够有效地减少计算量。在一些长序列设置中,动态模式甚至可以匹配或超过密集基线,证明了其在长时程视频生成方面的优势。Mask-aware LoRA进一步提升了长时程一致性。
🎯 应用场景
DynamicRad可应用于各种长视频生成和编辑场景,例如电影制作、游戏开发、虚拟现实等。通过提高视频扩散模型的效率,DynamicRad使得在资源受限的设备上进行高质量视频生成成为可能。此外,该方法还可以用于视频修复、超分辨率等任务,具有广泛的应用前景。
📄 摘要(原文)
Leveraging the natural spatiotemporal energy decay in video diffusion offers a path to efficiency, yet relying solely on rigid static masks risks losing critical long-range information in complex dynamics. To address this issue, we propose \textbf{DynamicRad}, a unified sparse-attention paradigm that grounds adaptive selection within a radial locality prior. DynamicRad introduces a \textbf{dual-mode} strategy: \textit{static-ratio} for speed-optimized execution and \textit{dynamic-threshold} for quality-first filtering. To ensure robustness without online search overhead, we integrate an offline Bayesian Optimization (BO) pipeline coupled with a \textbf{semantic motion router}. This lightweight projection module maps prompt embeddings to optimal sparsity regimes with \textbf{minimal runtime overhead}. Unlike online profiling methods, our offline BO optimizes attention reconstruction error (MSE) on a physics-based proxy task, ensuring rapid convergence. Experiments on HunyuanVideo and Wan2.1-14B demonstrate that DynamicRad pushes the efficiency--quality Pareto frontier, achieving \textbf{1.7$\times$--2.5$\times$ inference speedups} with \textbf{over 80\% effective sparsity}. In some long-sequence settings, the dynamic mode even matches or exceeds the dense baseline, while mask-aware LoRA further improves long-horizon coherence. Code is available at https://github.com/Adamlong3/DynamicRad.