Render, Don't Decode: Weight-Space World Models with Latent Structural Disentanglement
作者: Roussel Desmond Nzoyem, Mauro Comi
分类: cs.CV, cs.AI
发布日期: 2026-05-07
备注: 35 pages, 30 figures, 8 tables
💡 一句话要点
提出NOVA:一种基于权重空间的、具有潜在结构解耦的世界模型,用于可控视频预测。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 世界模型 隐式神经表示 解耦表示 可控视频生成 权重空间 解析渲染 动态建模
📋 核心要点
- 现有世界模型依赖像素编码和复杂解码器,导致计算成本高昂且缺乏可解释性。
- NOVA将系统状态表示为INR的权重和偏置,通过解析渲染消除解码器瓶颈,实现紧凑性和可移植性。
- NOVA在无辅助损失下解耦场景组件,实现内容和动态的独立编辑,并在消费级GPU上实现强大的可控预测。
📝 摘要(中文)
在大量无标签视频上训练世界模型是实现完全自主智能的关键一步。然而,目前主流的范式是将原始像素编码到不透明的潜在空间,并依赖于复杂的解码器进行重建,这使得这些模型计算成本高昂且难以解释。我们通过引入NOVA来解决这个问题,NOVA是一个世界建模框架,它将系统状态表示为辅助的基于坐标的隐式神经表示(INR)的权重和偏置。这种结构化的表示被分析地渲染,消除了解码器的瓶颈,同时赋予了紧凑性、可移植性和零样本超分辨率。此外,像大多数潜在动作模型一样,NOVA可以通过动作匹配目标提炼成上下文相关的视频生成器。令人惊讶的是,在不借助辅助损失或对抗性目标的情况下,NOVA可以解耦结构化的场景组件,如背景、前景和帧间运动,从而使用户可以在不影响其他组件的情况下编辑内容或动态。我们在几个具有挑战性的数据集上验证了我们的框架,在单个消费级GPU上以约40M参数实现了强大的可控预测。最终,像INR这样的结构化表示不仅增强了我们对潜在动态的理解,而且为沉浸式和可定制的虚拟体验铺平了道路。
🔬 方法详解
问题定义:现有世界模型通常将原始像素编码到高维潜在空间,然后使用解码器重建图像。这种方法计算量大,难以解释潜在空间中不同因素的含义,并且解码器成为性能瓶颈。此外,难以对场景中的不同结构化组件(如背景、前景、运动)进行解耦和控制。
核心思路:NOVA的核心思想是将世界状态表示为隐式神经表示(INR)的权重和偏置。INR是一种坐标到特征的映射,可以高效地表示复杂的场景。通过将世界状态编码为INR的权重,NOVA可以直接渲染图像,避免了传统解码器的使用。此外,通过对INR的权重进行结构化设计,可以实现对场景中不同组件的解耦。
技术框架:NOVA框架包含以下主要模块:1) 编码器:将历史观测和动作编码为潜在状态;2) 动态模型:预测下一个潜在状态;3) INR:将潜在状态转换为INR的权重和偏置;4) 渲染器:使用INR的权重和偏置,通过解析渲染生成图像。整个流程是:观测->编码器->潜在状态->动态模型->下一个潜在状态->INR->渲染图像。
关键创新:NOVA的关键创新在于使用INR的权重空间作为世界模型的潜在空间。这种表示方式具有以下优点:1) 避免了解码器瓶颈;2) 实现了紧凑的表示;3) 允许对场景组件进行解耦;4) 支持零样本超分辨率。与现有方法相比,NOVA不需要复杂的解码器,并且可以更好地控制场景的生成。
关键设计:NOVA使用MLP作为INR,其输入是坐标,输出是颜色值。动态模型使用循环神经网络(RNN)来预测下一个潜在状态。损失函数主要包括重构损失和动作匹配损失。重构损失用于确保生成的图像与真实图像相似,动作匹配损失用于将NOVA提炼成上下文相关的视频生成器。没有使用额外的辅助损失或对抗损失来实现解耦。
📊 实验亮点
NOVA在多个具有挑战性的数据集上取得了优异的性能。实验结果表明,NOVA可以在单个消费级GPU上以约40M参数实现强大的可控预测。与现有方法相比,NOVA在图像质量和可控性方面均有显著提升。更重要的是,NOVA能够在不借助辅助损失的情况下解耦场景组件,这表明其具有很强的表示学习能力。
🎯 应用场景
NOVA具有广泛的应用前景,包括虚拟现实、游戏、机器人和自动驾驶等领域。它可以用于生成逼真的虚拟环境,创建可定制的游戏角色,以及训练机器人在复杂环境中的行为。通过解耦场景组件,NOVA可以实现对虚拟环境的精细控制,例如改变背景、编辑前景或调整运动轨迹。
📄 摘要(原文)
Training world models on vast quantities of unlabelled videos is a critical step toward fully autonomous intelligence. However, the prevailing paradigm of encoding raw pixels into opaque latent spaces and relying on heavy decoders for reconstruction leaves these models computationally expensive and uninterpretable. We address this problem by introducing NOVA, a world modelling framework that represents the system state as the weights and biases of an auxiliary coordinate-based implicit neural representation (INR). This structured representation is analytically rendered, which eliminates the decoder bottleneck while conferring compactness, portability, and zero-shot super-resolution. Furthermore, like most latent action models, NOVA can be distilled into a context-dependent video generator via an action-matching objective. Surprisingly, without resorting to auxiliary losses or adversarial objectives, NOVA can disentangle structural scene components such as background, foreground, and inter-frame motion, enabling users to edit either content or dynamics without compromising the other. We validate our framework on several challenging datasets, achieving strong controllable forecasting while operating on a single consumer GPU at $\sim$40M parameters. Ultimately, structured representations like INRs not only enhance our understanding of latent dynamics but also pave the way for immersive and customisable virtual experiences.