ReactiveGWM: Steering NPC in Reactive Game World Models

作者: Zeqing Wang, Danze Chen, Zhaohu Xing, Zizhao Tong, Yinhan Zhang, Xingyi Yang, Yeying Jin

分类: cs.CV

发布日期: 2026-05-14

备注: The code is available at https://inv-wzq.github.io/ReactiveGWM/

💡 一句话要点

提出ReactiveGWM，实现游戏中可控NPC的反应式游戏世界建模。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 游戏世界模型 NPC控制 反应式交互 扩散模型 交叉注意力 零样本学习 策略迁移

📋 核心要点

现有游戏世界模型无法有效模拟玩家与NPC的互动，缺乏对NPC反应的建模能力。
ReactiveGWM通过解耦玩家控制和NPC行为，并利用交叉注意力学习游戏无关的交互逻辑。
实验表明，ReactiveGWM在保持玩家可控性的同时，实现了对提示对齐的NPC策略遵循，并支持零样本策略迁移。

📝 摘要（中文）

现有的游戏世界模型通常以玩家为中心，将NPC视为背景像素，无法捕捉玩家与NPC之间的互动。这些模型更像是被动的视频渲染器，缺乏理解物理世界的能力，难以模拟由动作引起的NPC反应。本文提出了ReactiveGWM，一种反应式游戏世界模型，用于合成玩家与NPC之间的动态互动。ReactiveGWM将玩家控制与NPC行为解耦，通过轻量级的加性偏差将玩家动作注入扩散模型，并通过交叉注意力模块来控制高级NPC响应（如进攻、控制、防御）。这些模块学习了一种与游戏无关的交互逻辑表示，从而实现零样本策略迁移：学习到的模块可以直接插入到现成的、未标注的不同游戏世界模型中，无需任何特定领域的重新训练，即可解锁可控的NPC互动。在两款《街头霸王》游戏中进行的评估表明，ReactiveGWM在保持精细的玩家可控性的同时，实现了对提示对齐的鲁棒NPC策略遵循，为与NPC进行可扩展的、策略丰富的互动铺平了道路。

🔬 方法详解

问题定义：现有游戏世界模型主要关注环境的渲染，而忽略了玩家和NPC之间的交互。它们将NPC视为静态背景，无法模拟NPC对玩家行为的反应，缺乏对物理世界的理解，因此无法实现可控的、策略丰富的NPC互动。现有方法需要针对特定游戏进行训练，泛化能力差。

核心思路：ReactiveGWM的核心思路是将玩家的控制与NPC的行为解耦。通过这种解耦，可以独立地控制玩家的动作，并根据玩家的动作来驱动NPC的反应。利用扩散模型生成环境，并使用交叉注意力机制来控制NPC的行为策略，从而实现可控的NPC互动。

技术框架：ReactiveGWM的整体框架包含以下几个主要模块：1) 扩散模型：用于生成游戏环境的视觉表示。2) 玩家控制模块：负责接收玩家的输入，并将其转化为游戏中的动作。3) NPC策略模块：利用交叉注意力机制，根据玩家的动作和预定义的策略提示，生成NPC的反应。4) 融合模块：将玩家的动作和NPC的反应融合到游戏环境中，生成最终的游戏画面。

关键创新：ReactiveGWM的关键创新在于其解耦的架构和游戏无关的交互逻辑表示。通过解耦玩家控制和NPC行为，可以实现对NPC行为的精细控制。通过学习游戏无关的交互逻辑，可以实现零样本策略迁移，即在未见过的游戏环境中直接应用学习到的NPC策略。

关键设计：ReactiveGWM的关键设计包括：1) 使用轻量级的加性偏差将玩家动作注入扩散模型，以保持玩家的精细控制。2) 使用交叉注意力模块来控制高级NPC响应，例如进攻、控制和防御。3) 设计损失函数来鼓励NPC遵循预定义的策略提示。4) 采用模块化的设计，使得各个模块可以独立地进行训练和替换。

🖼️ 关键图片

📊 实验亮点

ReactiveGWM在两款《街头霸王》游戏中进行了评估，实验结果表明，ReactiveGWM在保持精细的玩家可控性的同时，实现了对提示对齐的鲁棒NPC策略遵循。更重要的是，ReactiveGWM展现了强大的零样本策略迁移能力，无需任何特定领域的重新训练，即可解锁可控的NPC互动。

🎯 应用场景

ReactiveGWM可应用于游戏开发、虚拟现实、机器人控制等领域。在游戏开发中，可以用于创建更智能、更具交互性的NPC，提升游戏体验。在虚拟现实中，可以用于模拟更真实的虚拟环境，增强用户的沉浸感。在机器人控制中，可以用于训练机器人与人类进行更自然的交互。

📄 摘要（原文）

Current game world models simulate environments from a subjective, player-centric perspective. However, by treating the Non-Player Character (NPC) merely as background pixels, these models cannot capture interactions between the player and NPC. In that sense, they act as passive video renderers rather than real simulation engines, lacking the physical understanding needed to model action-induced NPC reactivities. We introduce ReactiveGWM, a reactive game world model that synthesizes dynamic interactions between the player and NPC. Instead of entangling all interaction dynamics, ReactiveGWM explicitly decouples player controls from NPC behaviors. Player actions are injected into the diffusion backbone via a lightweight additive bias, while high-level NPC responses (e.g., Offense, Control, Defense) are grounded through cross-attention modules. Crucially, these modules learn a game-agnostic representation of interactive logic. This enables zero-shot strategy transfer: our learned modules can be plugged directly into off-the-shelf, unannotated world models of different games. This instantly unlocks steerable NPC interactions without any domain-specific retraining. Evaluated on two Street Fighter games, ReactiveGWM maintains fine-grain player controllability while achieving robust, prompt-aligned NPC strategy adherence, paving the way for scalable, strategy-rich interaction with the NPC.

ReactiveGWM: Steering NPC in Reactive Game World Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理