Render, Don't Decode: Weight-Space World Models with Latent Structural Disentanglement

📄 arXiv: 2605.06298v2 📥 PDF

作者: Roussel Desmond Nzoyem, Mauro Comi

分类: cs.CV, cs.AI

发布日期: 2026-05-07 (更新: 2026-05-08)

备注: 35 pages, 30 figures, 8 tables


💡 一句话要点

提出NOVA世界模型框架:通过权重空间隐式神经表示实现结构解耦与高效视频预测

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 隐式神经表示 权重空间建模 视频生成 结构解耦 可控预测

📋 核心要点

  1. 现有世界模型依赖像素级编码与复杂解码器,导致计算成本高昂且潜在空间缺乏可解释性。
  2. NOVA将系统状态建模为坐标基隐式神经表示(INR)的权重,通过解析渲染替代传统解码器。
  3. 该模型在消费级硬件上实现了高效的视频预测,并能在无监督条件下实现场景组件的解耦。

📝 摘要(中文)

在海量无标注视频上训练世界模型是实现通用自主智能的关键。然而,现有范式通常将原始像素编码为不透明的潜在空间,并依赖复杂的解码器进行重构,导致模型计算开销大且缺乏可解释性。为此,本文提出了NOVA世界模型框架。NOVA将系统状态表示为辅助坐标基隐式神经表示(INR)的权重和偏置。这种结构化表示通过解析渲染,消除了解码器瓶颈,同时具备紧凑性、可移植性和零样本超分辨率能力。此外,NOVA可通过动作匹配目标蒸馏为上下文相关的视频生成器。研究发现,无需辅助损失或对抗目标,NOVA即可实现背景、前景和帧间运动等场景组件的解耦,支持在不影响内容的前提下编辑动态。实验表明,该框架在消费级GPU上仅需约40M参数即可实现强大的可控预测。

🔬 方法详解

问题定义:现有世界模型普遍采用“编码-解码”架构,将视频压缩至黑盒潜在空间,导致重构过程计算密集且难以对场景结构进行细粒度控制,限制了模型在复杂交互场景中的应用。

核心思路:引入权重空间(Weight-Space)建模思想,将视频帧视为坐标基隐式神经表示(INR)的函数。通过直接预测INR的权重参数而非像素值,将动态演化过程转化为权重空间的轨迹预测,从而规避了传统解码器的计算瓶颈。

技术框架:NOVA框架由状态表示模块和动态预测模块组成。系统状态被参数化为INR的权重,通过解析渲染(Analytical Rendering)直接生成图像。模型通过动作匹配目标进行训练,将动作序列映射为权重空间的演化路径,并支持蒸馏为视频生成器。

关键创新:核心创新在于“渲染而非解码”的范式转换。通过将场景结构内嵌于INR权重中,模型在无需显式监督的情况下,自动实现了背景、前景及运动轨迹的解耦,赋予了模型极强的可解释性与编辑能力。

关键设计:模型采用紧凑的参数化设计(约40M参数),利用INR的坐标映射特性实现零样本超分辨率。训练过程中通过动作匹配目标(Action-matching objective)驱动权重演化,无需额外的对抗损失或辅助正则化项即可保持生成质量与结构一致性。

📊 实验亮点

NOVA在多个基准数据集上展现了卓越的预测性能。在仅使用单张消费级GPU且参数量控制在40M左右的条件下,实现了高质量的视频预测。实验证明,该模型无需对抗训练即可实现场景组件的自动解耦,在保持内容一致性的同时,支持对前景运动和背景内容的独立编辑,显著优于传统黑盒潜在空间模型。

🎯 应用场景

该研究在沉浸式虚拟现实(VR)、交互式游戏引擎及自动驾驶仿真领域具有重要价值。其高效的权重空间表示和场景解耦能力,使得用户能够实时编辑视频内容或动态,为构建可定制的虚拟世界提供了轻量化且可解释的底层技术支撑。

📄 摘要(原文)

Training world models on vast quantities of unlabelled videos is a critical step toward fully autonomous intelligence. However, the prevailing paradigm of encoding raw pixels into opaque latent spaces and relying on heavy decoders for reconstruction leaves these models computationally expensive and uninterpretable. We address this problem by introducing NOVA, a world modelling framework that represents the system state as the weights and biases of an auxiliary coordinate-based implicit neural representation (INR). This structured representation is analytically rendered, which eliminates the decoder bottleneck while conferring compactness, portability, and zero-shot super-resolution. Furthermore, like most latent action models, NOVA can be distilled into a context-dependent video generator via an action-matching objective. Surprisingly, without resorting to auxiliary losses or adversarial objectives, NOVA can disentangle structural scene components such as background, foreground, and inter-frame motion, enabling users to edit either content or dynamics without compromising the other. We validate our framework on several challenging datasets, achieving strong controllable forecasting while operating on a single consumer GPU at $\sim$40M parameters. Ultimately, structured representations like INRs not only enhance our understanding of latent dynamics but also pave the way for immersive and customisable virtual experiences.