X-Cache: Cross-Chunk Block Caching for Few-Step Autoregressive World Models Inference
作者: Yixiao Zeng, Jianlei Zheng, Chaoda Zheng, Shijia Chen, Mingdian Liu, Tongping Liu, Tengwei Luo, Yu Zhang, Boyang Wang, Linkun Xu, Siyuan Lu, Bo Tian, Xianming Liu
分类: cs.CV
发布日期: 2026-04-22
备注: Technical Report
💡 一句话要点
提出X-Cache以解决少步自回归世界模型推理的缓存效率问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自回归模型 视频扩散 缓存机制 实时推理 强化学习 自主驾驶 多摄像头生成
📋 核心要点
- 现有的自回归视频扩散模型在推理时面临高成本的挑战,影响了实时应用的可行性。
- X-Cache通过在连续生成块之间缓存残差,避免了传统方法在去噪步骤中的冗余计算,提升了推理效率。
- 实验结果表明,X-Cache在X-world模型上实现了71%的块跳过率和2.6倍的速度提升,且保持了最低的性能降级。
📝 摘要(中文)
实时世界模拟正成为自主驾驶系统可扩展评估和在线强化学习的关键基础设施。基于自回归视频扩散的驾驶世界模型虽然实现了高保真度和可控的多摄像头生成,但其推理成本仍然是互动部署的瓶颈。现有的扩散缓存方法主要针对离线视频生成,无法有效应用于此场景。为此,本文提出了X-Cache,一种无训练加速方法,通过在连续生成块之间进行缓存,而非在去噪步骤之间进行缓存,显著提高了推理效率。X-Cache在保持最小降级的同时,实现了71%的块跳过率和2.6倍的墙钟加速。
🔬 方法详解
问题定义:本文旨在解决现有自回归视频扩散模型在推理过程中的高计算成本问题。现有的扩散缓存方法主要针对离线生成,无法有效应用于实时交互生成场景,导致推理效率低下。
核心思路:X-Cache提出了一种新的缓存策略,通过在连续生成块之间进行缓存,而非在去噪步骤中进行缓存,从而避免了冗余计算。该方法利用块级残差缓存和双重度量门控机制,决定每个块是否需要重新计算或重用缓存的残差。
技术框架:X-Cache的整体架构包括两个主要模块:一是残差缓存模块,负责在生成块之间保持残差;二是KV更新模块,确保在特定块上进行完全计算,以防止误差传播。
关键创新:X-Cache的核心创新在于其训练无关的加速策略,通过跨块缓存而非跨去噪步骤缓存,显著提高了推理效率,并且通过强制在KV更新块上进行完全计算,避免了误差的累积。
关键设计:在设计中,X-Cache采用了结构和动作感知的块输入指纹,结合双重度量门控机制,独立判断每个块的计算需求。此外,针对KV更新块的全计算策略是防止误差传播的关键设计。
🖼️ 关键图片
📊 实验亮点
实验结果显示,X-Cache在X-world模型上实现了71%的块跳过率,墙钟时间加速达2.6倍,同时保持了最低的性能降级。这一结果表明X-Cache在实时推理中的显著优势,超越了现有的缓存方法。
🎯 应用场景
该研究的潜在应用领域包括自主驾驶系统的实时模拟与评估,尤其是在需要高效推理的在线强化学习场景中。X-Cache的高效性使其能够在多摄像头生成任务中发挥重要作用,推动智能驾驶技术的进一步发展。
📄 摘要(原文)
Real-time world simulation is becoming a key infrastructure for scalable evaluation and online reinforcement learning of autonomous driving systems. Recent driving world models built on autoregressive video diffusion achieve high-fidelity, controllable multi-camera generation, but their inference cost remains a bottleneck for interactive deployment. However, existing diffusion caching methods are designed for offline video generation with multiple denoising steps, and do not transfer to this scenario. Few-step distilled models have no inter-step redundancy left for these methods to reuse, and sequence-level parallelization techniques require future conditioning that closed-loop interactive generation does not provide. We present X-Cache, a training-free acceleration method that caches along a different axis: across consecutive generation chunks rather than across denoising steps. X-Cache maintains per-block residual caches that persist across chunks, and applies a dual-metric gating mechanism over a structure- and action-aware block-input fingerprint to independently decide whether each block should recompute or reuse its cached residual. To prevent approximation errors from permanently contaminating the autoregressive KV cache, X-Cache identifies KV update chunks (the forward passes that write clean keys and values into the persistent cache) and unconditionally forces full computation on these chunks, cutting off error propagation. We implement X-Cache on X-world, a production multi-camera action-conditioned driving world model built on multi-block causal DiT with few-step denoising and rolling KV cache. X-Cache achieves 71% block skip rate with 2.6x wall-clock speedup while maintaining minimum degradation.