Light Interaction: Training-Free Inference Acceleration for Interactive Video World Models

📄 arXiv: 2605.31158v1 📥 PDF

作者: Jiacheng Lu, Haoyi Zhu, Sipei Yi, Enze Xie, Yu Li, Cheng Zhuo

分类: cs.CV, cs.LG

发布日期: 2026-05-29

备注: 13 pages, 6 figures, 3 tables. Project page: https://2843721358l-del.github.io/Light-Interaction-Project/


💡 一句话要点

Light Interaction:无需训练加速交互式视频世界模型的推理

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交互式视频模型 推理加速 自适应计算 稀疏注意力 硬件协同

📋 核心要点

  1. 交互式视频世界模型面临长轨迹推理时计算成本过高的问题,主要瓶颈在于上下文记忆增长和注意力机制的复杂度。
  2. Light Interaction通过自适应上下文管理、去噪缓存加速和硬件协同的稀疏注意力机制,实现高效推理。
  3. 实验表明,Light Interaction在不重新训练模型的前提下,显著提升了推理速度,同时保持了良好的视觉质量。

📝 摘要(中文)

交互式视频世界模型通过响应用户控制的相机移动,逐块生成视频,从而实现实时游戏模拟、虚拟场景导航和具身AI训练等应用。然而,由于上下文记忆的增长、二次方复杂度的注意力机制以及重复的去噪步骤,扩展到长交互轨迹的成本非常高昂。我们提出了Light Interaction,这是一个无需训练的交互式视频世界模型推理加速框架。我们的核心思想是,交互自然地实现了轨迹相关的自适应计算:检索到的空间记忆可以在新的探索过程中被丢弃,时间上下文可以根据局部潜在动态进行调整,并且当相机重新访问熟悉的区域时,可以重用早期步骤的模型输出。基于此,Light Interaction结合了自适应上下文管理、去噪缓存加速以及硬件-软件协同设计的3D块稀疏注意力与融合的Triton内核。在HY-WorldPlay和Matrix-Game-3.0上的评估表明,Light Interaction在不重新训练模型的情况下实现了高达2.59倍的加速,同时保持了具有竞争力的视觉质量。

🔬 方法详解

问题定义:交互式视频世界模型旨在根据用户控制的相机运动生成视频序列,应用于游戏、导航和具身智能等领域。然而,现有方法在处理长交互轨迹时,由于需要维护庞大的上下文信息、计算复杂度高的注意力机制以及重复的去噪过程,导致推理速度慢,计算成本高昂。

核心思路:Light Interaction的核心思想是利用交互过程中的轨迹依赖性,实现自适应计算。具体来说,当探索新区域时,可以丢弃旧的空间记忆;根据局部动态调整时间上下文;当相机重新访问熟悉区域时,可以重用之前的模型输出。这种自适应性减少了不必要的计算,从而加速推理。

技术框架:Light Interaction包含三个主要模块:自适应上下文管理、去噪缓存加速和硬件-软件协同设计的3D块稀疏注意力。自适应上下文管理动态地选择和更新上下文信息,减少冗余计算。去噪缓存加速存储中间去噪步骤的结果,以便在重新访问相同区域时重用。3D块稀疏注意力通过硬件加速和优化的Triton内核,高效地处理高维数据。

关键创新:Light Interaction的关键创新在于提出了一个无需训练的推理加速框架,该框架能够根据交互轨迹的特点自适应地调整计算过程。与传统的模型压缩或知识蒸馏方法不同,Light Interaction不需要额外的训练数据或模型微调,可以直接应用于现有的交互式视频世界模型。

关键设计:自适应上下文管理模块使用一个策略网络来决定何时更新或丢弃上下文信息。去噪缓存加速模块使用哈希表来存储中间去噪结果,并根据相似度来判断是否可以重用。3D块稀疏注意力模块使用预定义的稀疏模式来减少计算量,并利用硬件加速和优化的Triton内核来提高效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Light Interaction在HY-WorldPlay和Matrix-Game-3.0数据集上进行了评估,实验结果表明,该方法在不重新训练模型的情况下,实现了高达2.59倍的推理加速,同时保持了与原始模型相当的视觉质量。这表明Light Interaction是一种高效且实用的交互式视频世界模型推理加速方法。

🎯 应用场景

Light Interaction可广泛应用于需要实时交互式视频生成的场景,例如实时游戏模拟、虚拟现实导航、机器人远程控制和具身AI训练。该技术能够显著降低计算成本,提高用户体验,并促进相关领域的发展。未来,该技术有望应用于更大规模、更复杂的交互式环境中。

📄 摘要(原文)

Interactive video world models generate video chunk by chunk in response to user-controlled camera movements, enabling applications such as real-time game simulation, virtual scene navigation, and embodied AI training. However, scaling to long interactive trajectories is prohibitively expensive due to growing context memory, quadratic attention complexity, and repeated denoising steps. We present Light Interaction, a training-free inference acceleration framework for interactive video world models. Our key insight is that interaction naturally enables trajectory-dependent adaptive computation: retrieved spatial memory can be discarded during novel exploration, temporal context can be adjusted according to local latent dynamics, and early-step model outputs can be reused when the camera revisits familiar regions. Based on this insight, Light Interaction combines adaptive context management, denoising cache acceleration, and hardware-software co-designed 3D block sparse attention with fused Triton kernels. Evaluated on HY-WorldPlay and Matrix-Game-3.0, Light Interaction achieves up to 2.59x speedup without model retraining while maintaining competitive visual quality.