WorldCache: Content-Aware Caching for Accelerated Video World Models
作者: Umair Nawaz, Ahmed Heakl, Ufaq Khan, Abdelrahman Shaker, Salman Khan, Fahad Shahbaz Khan
分类: cs.CV, cs.AI, cs.CL, cs.LG
发布日期: 2026-03-23
备注: 33 Pages
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出WorldCache,通过感知约束动态缓存加速视频世界模型的推理。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视频世界模型 扩散Transformer 特征缓存 推理加速 运动估计
📋 核心要点
- 现有视频世界模型推理速度慢,主要瓶颈在于Diffusion Transformer中昂贵的时空注意力计算。
- WorldCache通过感知约束的动态缓存框架,自适应地重用中间特征,避免重复计算,提升推理速度。
- 实验表明,WorldCache在保证图像质量的前提下,实现了2.3倍的推理加速,显著优于现有方法。
📝 摘要(中文)
扩散Transformer(DiT)能够驱动高保真视频世界模型,但由于顺序去噪和昂贵的时空注意力机制,其计算成本仍然很高。免训练的特征缓存通过重用去噪步骤中的中间激活来加速推理;然而,现有的方法主要依赖于零阶保持假设,即在全球漂移较小时,将缓存的特征作为静态快照重用。这通常会导致动态场景中出现重影伪影、模糊和运动不一致。我们提出了WorldCache,一种感知约束的动态缓存框架,它改进了何时以及如何重用特征。WorldCache引入了运动自适应阈值、显著性加权漂移估计、通过混合和扭曲实现的最优近似,以及跨扩散步骤的相位感知阈值调度。我们这种有凝聚力的方法能够实现自适应的、运动一致的特征重用,而无需重新训练。在PAI-Bench上评估的Cosmos-Predict2.5-2B数据集上,WorldCache实现了2.3倍的推理加速,同时保留了99.4%的基线质量,大大优于之前的免训练缓存方法。
🔬 方法详解
问题定义:视频世界模型,特别是基于Diffusion Transformer的模型,在推理阶段计算量巨大,严重限制了其应用。现有的特征缓存方法,简单地将之前的特征作为静态快照重用,忽略了视频中的运动信息,导致重影、模糊等问题。
核心思路:WorldCache的核心在于感知视频内容的动态变化,并根据这些变化自适应地决定何时以及如何重用缓存的特征。通过更智能的缓存策略,在保证生成质量的同时,最大程度地减少计算量。
技术框架:WorldCache包含以下几个主要模块:1) 运动自适应阈值:根据场景运动幅度动态调整缓存重用阈值。2) 显著性加权漂移估计:利用显著性信息,更准确地估计特征漂移。3) 最优近似:通过混合和扭曲等操作,对缓存特征进行优化,使其更符合当前帧的需求。4) 相位感知阈值调度:在不同的扩散步骤中,采用不同的阈值策略。
关键创新:WorldCache的关键创新在于其感知约束的动态缓存机制。与现有方法简单地重用缓存特征不同,WorldCache充分考虑了视频内容的动态变化,并根据这些变化自适应地调整缓存策略。这种方法能够更有效地利用缓存,同时避免引入伪影。
关键设计:运动自适应阈值的设计是关键。具体来说,通过计算光流等运动信息,动态调整缓存重用的阈值。显著性加权漂移估计利用预训练的显著性检测模型,对特征漂移进行加权,从而更准确地估计漂移量。最优近似模块则采用了光流引导的图像扭曲和特征融合等技术,以提高缓存特征的质量。
🖼️ 关键图片
📊 实验亮点
在Cosmos-Predict2.5-2B数据集上,WorldCache在PAI-Bench测试中实现了2.3倍的推理加速,同时保留了99.4%的基线质量。这一结果显著优于现有的免训练缓存方法,表明WorldCache在加速视频世界模型推理方面具有显著优势。
🎯 应用场景
WorldCache可应用于各种需要实时或近实时视频生成的场景,例如视频编辑、游戏、虚拟现实和增强现实等。通过加速视频世界模型的推理速度,WorldCache能够降低计算成本,提高用户体验,并促进相关技术的普及。
📄 摘要(原文)
Diffusion Transformers (DiTs) power high-fidelity video world models but remain computationally expensive due to sequential denoising and costly spatio-temporal attention. Training-free feature caching accelerates inference by reusing intermediate activations across denoising steps; however, existing methods largely rely on a Zero-Order Hold assumption i.e., reusing cached features as static snapshots when global drift is small. This often leads to ghosting artifacts, blur, and motion inconsistencies in dynamic scenes. We propose \textbf{WorldCache}, a Perception-Constrained Dynamical Caching framework that improves both when and how to reuse features. WorldCache introduces motion-adaptive thresholds, saliency-weighted drift estimation, optimal approximation via blending and warping, and phase-aware threshold scheduling across diffusion steps. Our cohesive approach enables adaptive, motion-consistent feature reuse without retraining. On Cosmos-Predict2.5-2B evaluated on PAI-Bench, WorldCache achieves \textbf{2.3$\times$} inference speedup while preserving \textbf{99.4\%} of baseline quality, substantially outperforming prior training-free caching approaches. Our code can be accessed on \href{https://umair1221.github.io/World-Cache/}{World-Cache}.