C$^3$ache: Accelerating World Action Models with Cross Inference Chunk Cache

📄 arXiv: 2606.08962v1 📥 PDF

作者: Weisen Zhao, Lam Nguyen, Zhicong Lu, Yuzhang Shang

分类: cs.LG, cs.CV, cs.RO

发布日期: 2026-06-08


💡 一句话要点

提出C$^3$ache以加速世界动作模型推理

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界动作模型 推理加速 残差重用 机器人控制 多模态学习

📋 核心要点

  1. 现有的世界动作模型在推理过程中计算开销大,尤其是在多个推理块间的去噪步骤中存在冗余。
  2. C$^3$ache通过在相同去噪步骤中缓存和重用推理块间的残差,提出了一种高效的加速方法。
  3. 实验表明,C$^3$ache在推理时间上实现了最高2.5倍的加速,且任务成功率保持稳定。

📝 摘要(中文)

世界动作模型(WAMs)相比标准的视觉-语言-动作(VLA)策略在新动作和环境下具有更好的泛化能力,因为它们能够利用丰富的未标记视频进行学习。然而,这种泛化过程计算开销巨大。现有加速方法主要通过缓存和重用单个推理块的去噪过程来降低成本,但忽略了块间的冗余。本文提出C$^3$ache,一种无训练的方法,能够在相同去噪步骤中缓存和重用推理块间的残差。实验结果表明,C$^3$ache在使用Fast-WAM骨干网络的基准测试中,推理时间最高可加速2.5倍,同时任务成功率几乎没有下降。

🔬 方法详解

问题定义:本文旨在解决世界动作模型在推理过程中存在的高计算开销问题,尤其是多个推理块间的冗余未被充分利用。

核心思路:C$^3$ache的核心思路是通过缓存和重用在相同去噪步骤中计算的残差,从而减少重复计算,提高推理效率。

技术框架:C$^3$ache的整体架构包括去噪模块和缓存机制。去噪模块负责计算每个推理块的残差,而缓存机制则在不同推理块间共享这些残差。

关键创新:C$^3$ache的主要创新在于跨推理块的残差重用,这一设计显著减少了计算冗余,与现有方法相比,能够在相同的去噪步骤中实现更高的效率。

关键设计:在参数设置上,C$^3$ache采用了与Fast-WAM骨干网络兼容的结构,损失函数设计上关注于去噪效果的优化,确保残差的有效缓存和重用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

C$^3$ache在基准测试中表现出色,推理时间最高加速2.5倍,且在任务成功率上几乎没有下降,显示出其在实际应用中的有效性和可靠性。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动驾驶和智能监控等场景,能够显著提升系统的响应速度和效率。未来,C$^3$ache可能会在更复杂的多模态学习任务中发挥重要作用,推动智能系统的进一步发展。

📄 摘要(原文)

World Action Models (WAMs) generalize better than standard Vision-Language-Action (VLA) policies to novel motions and environments, because a video-modeling objective lets them learn from abundant unlabeled video rather than scarce labeled robot demonstrations. This generalization is computationally expensive. To complete a task, a WAM runs over multiple inference chunks, and each chunk requires a costly denoising process. Existing acceleration methods reduce this cost by caching and reusing computation within a single chunk's denoising trajectory. Our empirical analysis reveals a substantial source of redundancy they overlook: redundancy across chunks. When a robot executes a smooth behavior, the residuals computed at a given denoising step are strongly correlated from one chunk to the next. We introduce C$^3$ache, a training-free method that caches and reuses these residuals across inference chunks at the same denoising step. Experiments on benchmarks with a Fast-WAM backbone show that C$^3$ache achieves up to a $2.5\times$ speedup in total wall-clock inference time, with negligible degradation in task success rate.