Neural Fields as World Models
作者: Joshua Nunley
分类: q-bio.NC, cs.CV, cs.LG
发布日期: 2026-02-21
备注: 6 pages, 6 figures. Submitted to the Annual Meeting of the Cognitive Science Society (CogSci 2026)
💡 一句话要点
提出基于神经场的世界模型,通过空间结构保留实现物理预测和策略学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 世界模型 神经场 物理预测 策略学习 运动控制 空间拓扑 具身智能
📋 核心要点
- 现有世界模型忽略了感觉皮层的空间结构,限制了其对物理世界的建模能力。
- 论文提出同构世界模型,利用神经场保留空间拓扑结构,将物理预测转化为几何传播。
- 实验表明,该模型在弹道物理预测和策略迁移方面优于传统潜在空间模型,并能自发学习身体表征。
📝 摘要(中文)
本文探讨了大脑如何在与世界交互时预测物理结果。现有的机器学习世界模型将视觉输入压缩到潜在空间中,丢弃了感觉皮层所特有的空间结构。为此,作者提出了一种同构世界模型:该架构保留了感觉拓扑结构,使得物理预测成为几何传播而非抽象状态转换。具体实现是使用带有运动门控通道的神经场,其中活动通过局部横向连接演化,运动命令以乘法方式调节特定神经元群。三个实验验证了该方法的有效性:(1) 局部连接足以学习弹道物理,预测结果会经过中间位置而非“瞬移”;(2) 完全在想象中训练的策略迁移到真实物理环境中的成功率几乎是潜在空间方法的两倍;(3) 运动门控通道仅通过视觉运动预测就能自发地发展出身体选择性编码。这些发现表明,直观物理和身体图式可能共享空间结构化神经动力学的共同起源。
🔬 方法详解
问题定义:现有世界模型通常将视觉输入压缩到低维潜在空间,丢失了原始感官输入中的空间结构信息。这使得模型难以学习直观的物理规律,例如物体运动的连续性和空间关系。因此,如何构建一个能够保留空间信息的、更符合生物直觉的世界模型是一个关键问题。
核心思路:论文的核心思路是利用神经场来构建世界模型,神经场天然地保留了空间拓扑结构。通过在神经场中模拟神经元的局部连接和运动门控机制,使得物理预测可以通过神经元之间的几何传播来实现,而不是抽象的状态转移。这种设计使得模型能够更好地学习和理解物理世界的空间关系和动态规律。
技术框架:该模型主要由一个神经场构成,神经场中的每个点代表一个神经元,神经元之间的连接是局部的。模型的输入是视觉信息和运动命令。视觉信息被编码到神经场的初始状态,运动命令通过运动门控通道来调节神经元的活动。神经元的活动通过局部横向连接进行传播,从而实现物理预测。模型通过最小化预测误差来学习神经元之间的连接权重和运动门控参数。
关键创新:该论文的关键创新在于将神经场应用于世界模型的构建,并引入了运动门控机制。神经场的使用使得模型能够保留空间拓扑结构,运动门控机制使得模型能够学习运动命令对神经元活动的影响。这种设计使得模型能够更好地学习物理世界的空间关系和动态规律,并能够自发地发展出身体选择性编码。
关键设计:神经场的具体实现使用了多层感知机(MLP),神经元的连接权重通过学习得到。运动门控通道通过将运动命令与神经元的活动相乘来实现,从而调节神经元的活动。损失函数使用了均方误差(MSE),用于衡量预测结果与真实结果之间的差异。实验中,作者使用了不同的运动任务来训练和评估模型,例如弹道运动预测和策略学习。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于神经场的世界模型在弹道物理预测任务中能够准确预测物体运动轨迹,避免了传统潜在空间模型的“瞬移”现象。在策略迁移任务中,该模型训练的策略在真实物理环境中的迁移成功率几乎是潜在空间模型的两倍。此外,该模型还能够自发地发展出身体选择性编码,表明其能够学习到身体的表征。
🎯 应用场景
该研究成果可应用于机器人控制、虚拟现实和游戏开发等领域。通过构建更符合生物直觉的世界模型,可以提高机器人的运动控制能力,增强虚拟现实的沉浸感,并为游戏中的AI角色赋予更智能的行为。此外,该研究还有助于理解大脑如何进行物理预测和运动控制,为神经科学研究提供新的思路。
📄 摘要(原文)
How does the brain predict physical outcomes while acting in the world? Machine learning world models compress visual input into latent spaces, discarding the spatial structure that characterizes sensory cortex. We propose isomorphic world models: architectures preserving sensory topology so that physics prediction becomes geometric propagation rather than abstract state transition. We implement this using neural fields with motor-gated channels, where activity evolves through local lateral connectivity and motor commands multiplicatively modulate specific populations. Three experiments support this approach: (1) local connectivity is sufficient to learn ballistic physics, with predictions traversing intermediate locations rather than "teleporting"; (2) policies trained entirely in imagination transfer to real physics at nearly twice the rate of latent-space alternatives; and (3) motor-gated channels spontaneously develop body-selective encoding through visuomotor prediction alone. These findings suggest intuitive physics and body schema may share a common origin in spatially structured neural dynamics.