Yume-1.5: A Text-Controlled Interactive World Generation Model

📄 arXiv: 2512.22096v1 📥 PDF

作者: Xiaofeng Mao, Zhen Li, Chuanhao Li, Xiaojie Xu, Kaining Ying, Tong He, Jiangmiao Pang, Yu Qiao, Kaipeng Zhang

分类: cs.CV

发布日期: 2025-12-26


💡 一句话要点

Yume-1.5:一种文本控制的交互式世界生成模型,提升实时性和可控性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 交互式世界生成 文本控制生成 长视频生成 注意力蒸馏 实时渲染 上下文压缩 线性注意力

📋 核心要点

  1. 现有交互式世界生成方法存在参数量大、推理慢、上下文增长迅速等问题,难以实现实时交互。
  2. Yume-1.5通过统一上下文压缩、线性注意力、双向注意力蒸馏等技术,实现了高效的交互式世界生成。
  3. 该方法支持从单张图像或文本提示生成世界,并允许用户通过键盘进行探索和交互,增强了可控性。

📝 摘要(中文)

本文提出了一种名为Yume-1.5的新框架,旨在从单张图像或文本提示生成逼真、交互式和连续的世界。现有方法通常面临参数量过大、推理步骤冗长以及历史上下文快速增长等挑战,严重限制了实时性能,并且缺乏文本控制生成能力。Yume-1.5通过精心设计的框架解决了这些问题,该框架支持基于键盘对生成世界的探索。该框架包含三个核心组件:(1)一个集成了统一上下文压缩和线性注意力的长视频生成框架;(2)一种由双向注意力蒸馏和增强的文本嵌入方案驱动的实时流加速策略;(3)一种用于生成世界事件的文本控制方法。代码库已在补充材料中提供。

🔬 方法详解

问题定义:现有交互式世界生成模型面临的主要问题是计算复杂度高,难以实现实时渲染和交互。具体来说,参数量过大导致推理速度慢,冗长的推理步骤进一步降低了效率,而历史上下文的快速增长则增加了内存负担。此外,缺乏有效的文本控制机制,使得用户难以精确地引导世界的生成过程。

核心思路:Yume-1.5的核心思路是通过优化模型结构和推理流程,降低计算复杂度,提高生成速度,并引入文本控制机制,增强用户对生成世界的控制能力。该方法旨在实现从单张图像或文本提示出发,生成逼真、交互式和连续的世界。

技术框架:Yume-1.5框架包含三个核心组件:(1)长视频生成框架:集成了统一上下文压缩和线性注意力,用于生成连续的世界场景。(2)实时流加速策略:利用双向注意力蒸馏和增强的文本嵌入方案,加速推理过程,实现实时渲染。(3)文本控制方法:用于生成世界事件,允许用户通过文本指令影响世界的演变。用户可以通过键盘在生成的世界中进行探索。

关键创新:Yume-1.5的关键创新在于其集成的优化策略,包括:统一上下文压缩,有效管理和利用历史信息;线性注意力,降低计算复杂度;双向注意力蒸馏,加速推理过程;以及增强的文本嵌入方案,提升文本控制的精度。这些创新使得Yume-1.5能够在保证生成质量的同时,显著提高生成速度和交互性。

关键设计:统一上下文压缩的具体实现方式未知,但其目的是减少历史信息的冗余,降低计算负担。线性注意力的具体实现方式也未知,但其目的是将注意力机制的复杂度从O(n^2)降低到O(n),从而加速计算。双向注意力蒸馏的具体实现方式未知,但其目的是将复杂模型的知识迁移到更小的模型,从而加速推理。增强的文本嵌入方案的具体实现方式未知,但其目的是提高文本指令的表达能力,从而更精确地控制世界的生成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文重点在于框架设计和技术创新,具体的实验数据未知。但从摘要描述来看,Yume-1.5旨在解决现有方法在实时性和可控性方面的不足,通过集成多种优化策略,有望在生成速度和用户交互体验方面取得显著提升。双向注意力蒸馏和增强的文本嵌入方案是值得关注的亮点。

🎯 应用场景

Yume-1.5具有广泛的应用前景,包括游戏开发、虚拟现实、教育娱乐等领域。它可以用于快速生成游戏场景、创建逼真的虚拟环境,以及提供沉浸式的学习体验。通过文本控制,用户可以定制化生成内容,满足个性化需求。该研究的未来影响在于推动交互式内容生成技术的发展,降低内容创作的门槛。

📄 摘要(原文)

Recent approaches have demonstrated the promise of using diffusion models to generate interactive and explorable worlds. However, most of these methods face critical challenges such as excessively large parameter sizes, reliance on lengthy inference steps, and rapidly growing historical context, which severely limit real-time performance and lack text-controlled generation capabilities. To address these challenges, we propose \method, a novel framework designed to generate realistic, interactive, and continuous worlds from a single image or text prompt. \method achieves this through a carefully designed framework that supports keyboard-based exploration of the generated worlds. The framework comprises three core components: (1) a long-video generation framework integrating unified context compression with linear attention; (2) a real-time streaming acceleration strategy powered by bidirectional attention distillation and an enhanced text embedding scheme; (3) a text-controlled method for generating world events. We have provided the codebase in the supplementary material.