Incantation: Natural Language as the Action Interface for Multi-Entity Video World Models
作者: Shangwen Zhu, Qianyu Peng, Zhao Pu, Zhilei Shu, Xiangrui Ke, Zhaohu Xing, Zizhao Tong, Zeqing Wang, Xinyu Cui, Huangji Wang, Jian Zhao, Yeying Jin, Fan Cheng, Ruili Feng
分类: cs.CV
发布日期: 2026-05-18
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
Incantation:提出自然语言作为多实体视频世界模型的动作接口
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视频世界模型 自然语言接口 多实体控制 跨实体迁移 自监督学习 知识蒸馏 长时程预测
📋 核心要点
- 现有交互式视频世界模型缺乏细粒度的多实体控制和跨实体泛化能力,主要受限于动作接口的表达能力。
- 提出Incantation,使用自然语言作为动作接口,实现同步多实体控制和概念级跨实体迁移,突破了传统接口的限制。
- 实验表明,Incantation在跨实体迁移和词汇表外提示方面显著优于基线方法,并在保证视频质量的前提下实现了实时推理速度。
📝 摘要(中文)
现代交互式视频世界模型在视觉逼真度方面取得了显著进展,但缺乏细粒度的多实体控制和跨实体、跨世界的泛化能力。我们认为这是由于动作接口的限制:标准的控制协议(例如动画ID、设备输入、场景级字幕)在设计时将动作语义绑定到特定的实体或引擎。我们提出了自然语言作为接口,以释放现有接口无法实现的表达能力,并提出了Incantation,这是第一个具有逐潜在帧(0.25秒)自然语言调节的交互式视频世界模型,它支持同步多实体控制和超越任何固定渲染流程的概念级跨实体迁移。我们使用预训练的双向视频骨干网络与帧局部文本交叉注意力相结合,并通过具有RoPE解耦滑动KV缓存的ODE初始化自强制蒸馏实现实时长时程流式传输。在跨实体迁移(89% vs. 43%)和词汇表外提示(90% vs. 0%)方面,我们超越了Action-Index基线,并且我们的两步学生模型在480p分辨率下保持19.7 FPS,并在2小时的rollout中保持稳定的FVD。我们进一步将相同的架构和训练方法应用于《拳皇》,仅更改了每个实体的动作词汇槽。我们已在https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes发布了Incantation数据集的预览子集,其中包含手动收集的《艾尔登法环》玩家-Boss战斗片段,并具有结构化的面向动作的元数据。更大规模的《艾尔登法环》和《拳皇》数据将随完整项目一起发布。
🔬 方法详解
问题定义:现有交互式视频世界模型难以实现细粒度的多实体控制,并且在跨实体和跨世界泛化方面存在困难。传统的动作接口(如动画ID、设备输入)将动作语义与特定实体或引擎绑定,限制了模型的表达能力和泛化能力。
核心思路:使用自然语言作为动作接口,利用自然语言的丰富表达能力,实现对多个实体的同步控制,并支持概念层面的跨实体迁移。通过自然语言,模型可以理解更复杂的动作指令,从而实现更灵活和强大的交互能力。
技术框架:Incantation模型主要由以下几个部分组成:1) 预训练的双向视频骨干网络,用于提取视频特征;2) 帧局部文本交叉注意力机制,用于融合自然语言指令和视频特征;3) ODE初始化自强制蒸馏,用于加速推理并支持实时长时程流式传输;4) RoPE解耦滑动KV缓存,用于提高长序列建模能力。整体流程是,首先使用视频骨干网络提取视频特征,然后使用文本交叉注意力机制将自然语言指令融入视频特征,最后使用蒸馏后的模型进行视频生成。
关键创新:最重要的创新点在于使用自然语言作为动作接口,这使得模型能够理解和执行更复杂的动作指令,从而实现更灵活和强大的交互能力。与传统的动作接口相比,自然语言接口具有更强的表达能力和泛化能力,可以支持多实体控制和跨实体迁移。
关键设计:模型使用预训练的双向视频骨干网络,以提高视频特征的提取能力。帧局部文本交叉注意力机制允许模型关注与当前帧相关的文本信息。ODE初始化自强制蒸馏通过将教师模型的知识转移到学生模型,加速了推理过程。RoPE解耦滑动KV缓存提高了模型处理长序列视频的能力。损失函数方面,可能采用了对抗损失、重建损失等,以保证生成视频的质量和真实性。(具体损失函数细节未知)
🖼️ 关键图片
📊 实验亮点
实验结果表明,Incantation在跨实体迁移任务上达到了89%的准确率,显著优于Action-Index基线(43%)。在处理词汇表外提示时,Incantation的准确率达到了90%,而Action-Index基线为0%。此外,经过蒸馏的学生模型在480p分辨率下实现了19.7 FPS的推理速度,并在2小时的rollout中保持了稳定的FVD。
🎯 应用场景
该研究成果可应用于游戏AI、虚拟现实、机器人控制等领域。例如,在游戏中,可以使用自然语言指令控制多个游戏角色,实现更丰富的游戏体验。在虚拟现实中,用户可以通过自然语言与虚拟环境进行交互。在机器人控制中,可以使用自然语言指令控制机器人执行复杂的任务。该研究为构建更智能、更自然的交互式系统奠定了基础。
📄 摘要(原文)
Modern interactive video world models have achieved impressive visual fidelity, yet lack fine-grained multi-entity control and cross-entity, cross-world generalization. We trace this gap to the action interface: standard control protocols (e.g. animation IDs, device inputs, scene-level captions) bind action semantics to specific entities or engines at design time. We propose natural language as the interface to unlock expressiveness that no prior interface can achieve, and we present Incantation, the first interactive video world model with per-latent-frame (0.25 s) natural-language conditioning that supports simultaneous multi-entity control and concept-level cross-entity transfer beyond any fixed rendering pipeline. We pair a pretrained bidirectional video backbone with frame-local text cross-attention, and enable real-time long-horizon streaming through ODE-initialized Self-Forcing distillation with a RoPE-decoupled sliding KV-cache. We surpass the Action-Index baseline on cross-entity transfer (89% vs. 43%) and out-of-vocabulary prompts (90% vs. 0%), and our 2-step student sustains 19.7 FPS at 480p with stable FVD over 2-hour rollouts. We further apply the same architecture and training recipe to The King of Fighters, changing only the per-entity action vocabulary slots. We have released a preview subset of the Incantation dataset at https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes, containing manually collected Elden Ring player-boss combat clips with structured action-oriented metadata. Larger-scale Elden Ring and KOF data will be released with the full project.