Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model
作者: Junshu Tang, Jiacheng Liu, Jiaqi Li, Longhuang Wu, Haoyu Yang, Penghao Zhao, Siruis Gong, Xiang Yuan, Shuai Shao, Qinglin Lu
分类: cs.CV
发布日期: 2025-11-28
备注: Technical Report, Project page:https://hunyuan-gamecraft-2.github.io/
💡 一句话要点
Hunyuan-GameCraft-2:提出指令驱动的交互式游戏世界建模方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 游戏世界建模 交互式视频生成 指令驱动 混合专家模型 自然语言交互
📋 核心要点
- 现有生成世界模型受限于固定动作模式和高标注成本,难以建模多样化的游戏内交互和玩家驱动的动态。
- Hunyuan-GameCraft-2通过自然语言指令、键盘或鼠标信号驱动游戏视频生成,实现灵活且语义丰富的交互。
- 实验表明,该模型能生成时间连贯、因果关系明确的交互式游戏视频,并响应自由形式的用户指令。
📝 摘要(中文)
本文提出Hunyuan-GameCraft-2,一种用于生成游戏世界建模的指令驱动交互新范式。该模型允许用户通过自然语言提示、键盘或鼠标信号控制游戏视频内容,从而在生成的世界中实现灵活且语义丰富的交互,而非依赖于固定的键盘输入。论文定义了交互式视频数据的概念,并开发了一种自动流程,将大规模非结构化的文本-视频对转换为因果对齐的交互式数据集。该模型基于一个140亿参数的图像到视频混合专家(MoE)基础模型,并结合了文本驱动的交互注入机制,以实现对相机运动、角色行为和环境动态的细粒度控制。论文引入了一个以交互为中心的基准InterBench,以全面评估交互性能。实验表明,该模型能够生成时间上连贯且因果关系明确的交互式游戏视频,能够忠实地响应各种自由形式的用户指令,例如“开门”、“画一个火炬”或“触发爆炸”。
🔬 方法详解
问题定义:现有生成世界模型在创建开放式游戏环境方面取得了显著进展,但它们依赖于僵化的动作模式和高昂的标注成本,限制了它们对多样化游戏内交互和玩家驱动动态的建模能力。因此,需要一种更灵活、更低成本的方法来生成可交互的游戏世界。
核心思路:Hunyuan-GameCraft-2的核心思路是利用自然语言指令来驱动游戏世界的生成和交互。通过将文本提示作为输入,模型可以理解用户的意图,并相应地调整游戏环境、角色行为和相机运动,从而实现更自然、更直观的交互体验。这种方法避免了对固定动作模式的依赖,并降低了标注成本。
技术框架:Hunyuan-GameCraft-2基于一个140亿参数的图像到视频混合专家(MoE)基础模型。整体框架包含以下几个主要模块:1) 交互式数据集构建模块:将大规模文本-视频对转换为因果对齐的交互式数据集。2) 文本驱动的交互注入模块:将文本提示注入到视频生成过程中,以控制相机运动、角色行为和环境动态。3) 视频生成模块:基于MoE基础模型生成时间连贯的交互式游戏视频。
关键创新:该论文的关键创新在于提出了指令驱动的交互式游戏世界建模范式。与以往依赖固定动作模式的方法不同,Hunyuan-GameCraft-2允许用户通过自然语言指令与游戏世界进行交互,从而实现了更灵活、更直观的交互体验。此外,论文还提出了一种自动化的交互式数据集构建流程,降低了标注成本。
关键设计:模型采用混合专家(MoE)架构,以提高视频生成的质量和效率。文本驱动的交互注入模块采用了一种注意力机制,以将文本提示与视频帧进行对齐。损失函数包括视频重建损失、文本对齐损失和交互一致性损失。具体参数设置和网络结构细节未知。
🖼️ 关键图片
📊 实验亮点
论文引入了一个以交互为中心的基准InterBench,用于全面评估交互性能。实验结果表明,Hunyuan-GameCraft-2能够生成时间上连贯且因果关系明确的交互式游戏视频,能够忠实地响应各种自由形式的用户指令,例如“开门”、“画一个火炬”或“触发爆炸”。具体的性能数据和对比基线未知。
🎯 应用场景
Hunyuan-GameCraft-2具有广泛的应用前景,包括游戏开发、虚拟现实、教育娱乐等领域。它可以用于自动生成游戏场景、创建交互式故事、设计虚拟训练环境等。该研究的实际价值在于降低了游戏开发的成本和门槛,并为用户提供了更自由、更个性化的游戏体验。未来,该技术有望应用于更复杂的交互式场景,例如智能家居、自动驾驶等。
📄 摘要(原文)
Recent advances in generative world models have enabled remarkable progress in creating open-ended game environments, evolving from static scene synthesis toward dynamic, interactive simulation. However, current approaches remain limited by rigid action schemas and high annotation costs, restricting their ability to model diverse in-game interactions and player-driven dynamics. To address these challenges, we introduce Hunyuan-GameCraft-2, a new paradigm of instruction-driven interaction for generative game world modeling. Instead of relying on fixed keyboard inputs, our model allows users to control game video contents through natural language prompts, keyboard, or mouse signals, enabling flexible and semantically rich interaction within generated worlds. We formally defined the concept of interactive video data and developed an automated process to transform large-scale, unstructured text-video pairs into causally aligned interactive datasets. Built upon a 14B image-to-video Mixture-of-Experts(MoE) foundation model, our model incorporates a text-driven interaction injection mechanism for fine-grained control over camera motion, character behavior, and environment dynamics. We introduce an interaction-focused benchmark, InterBench, to evaluate interaction performance comprehensively. Extensive experiments demonstrate that our model generates temporally coherent and causally grounded interactive game videos that faithfully respond to diverse and free-form user instructions such as "open the door", "draw a torch", or "trigger an explosion".