Structure Abstraction and Generalization in a Hippocampal-Entorhinal Inspired World Model

📄 arXiv: 2605.15733v1 📥 PDF

作者: Tianqiu Zhang, Muyang Lyu, Xiao Liu, Si Wu

分类: cs.NE, cs.AI, cs.CV

发布日期: 2026-05-15

备注: Project page: https://hpc-mec-worldmodel.github.io/


💡 一句话要点

提出一种受海马-内嗅皮层启发的结构抽象世界模型,实现结构泛化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 结构抽象 海马-内嗅皮层 知识迁移 结构泛化

📋 核心要点

  1. 现有方法难以从连续高维动态中提取抽象结构,阻碍了知识迁移和泛化。
  2. 该模型通过逆模型提取结构,并利用HPC-MEC耦合模型解耦关系结构和情景场景。
  3. 实验表明,该模型能够进行结构抽象,并在不同上下文中实现鲁棒预测和结构重用。

📝 摘要(中文)

人类将经验抽象为结构化表示,以促进模式推理和知识迁移。海马-内嗅皮层(HPC-MEC)回路能够表征空间和概念空间,但从连续、高维动态中并发提取抽象结构的机制仍不清楚。本文提出了一种受大脑启发的层级模型,该模型同时推断潜在转换并构建预测性视觉世界模型。该架构采用逆模型进行结构提取,以及一个HPC-MEC耦合模型,将关系结构(MEC)与整合的情景场景(HPC)分离。通过使用原始变换动力学作为基准,证明了该模型具有结构抽象的能力。通过利用速度驱动的路径积分,该框架能够在不同的上下文中实现鲁棒的预测和结构重用,从而实现结构泛化。这项工作为理解受大脑启发的、自监督学习世界模型如何促进可重用的抽象知识的获取提供了一个新的计算框架。

🔬 方法详解

问题定义:现有方法在处理连续、高维动态数据时,难以有效地提取抽象的结构化信息,导致模型难以进行知识迁移和泛化。尤其是在视觉世界模型中,如何从像素级别的输入中学习到可复用的结构化知识是一个挑战。

核心思路:论文的核心思路是借鉴海马-内嗅皮层(HPC-MEC)的结构,构建一个层级模型,将关系结构(MEC)与情景场景(HPC)解耦。通过逆模型提取潜在的转换规则,并利用速度驱动的路径积分实现结构泛化。这种设计允许模型在不同的上下文中重用学习到的结构化知识。

技术框架:该模型包含以下几个主要模块:1) 逆模型:用于从观察到的状态转换中提取潜在的结构化转换规则。2) HPC模块:负责整合情景场景,并存储 episodic 信息。3) MEC模块:负责提取和表示关系结构,例如空间关系或概念关系。4) 世界模型:基于学习到的结构化知识和情景信息,预测未来的状态。整体流程是,模型首先通过逆模型提取结构化信息,然后利用HPC-MEC耦合模型进行表示,最后通过世界模型进行预测。

关键创新:该论文的关键创新在于将海马-内嗅皮层的结构引入到世界模型中,并提出了一种有效的结构抽象方法。通过解耦关系结构和情景场景,模型能够更好地进行知识迁移和泛化。此外,利用速度驱动的路径积分也提高了模型的鲁棒性和泛化能力。

关键设计:论文中可能涉及的关键设计包括:1) 逆模型的具体网络结构和损失函数,用于学习潜在的转换规则。2) HPC和MEC模块之间的连接方式和信息传递机制,用于实现结构解耦。3) 速度驱动的路径积分的具体实现方式,例如如何利用速度信息来更新状态表示。4) 世界模型的预测机制,例如如何利用学习到的结构化知识和情景信息来预测未来的状态。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过原始变换动力学实验验证了模型的结构抽象能力。实验结果表明,该模型能够有效地提取潜在的转换规则,并在不同的上下文中实现鲁棒的预测和结构重用。具体的性能数据和对比基线(例如,不使用HPC-MEC结构的baseline模型)的提升幅度需要在论文中查找。

🎯 应用场景

该研究成果可应用于机器人导航、智能体控制、游戏AI等领域。通过学习抽象的结构化知识,机器人可以更好地理解环境,进行规划和决策。智能体可以更有效地进行知识迁移和泛化,从而在新的环境中快速适应。此外,该研究也有助于理解人类认知机制,为人工智能的发展提供新的思路。

📄 摘要(原文)

Humans abstract experiences into structured representations to facilitate pattern inference and knowledge transfer. While the hippocampal-entorhinal (HPC-MEC) circuit is known to represent both spatial and conceptual spaces, the mechanisms for concurrently extracting abstract structures from continuous, high-dimensional dynamics remain poorly understood. We propose a brain-inspired hierarchical model that simultaneously infers latent transitions and constructs a predictive visual world model. Our architecture employs an inverse model for structural extraction alongside an HPC-MEC coupling model that dissociates relational structures (MEC) from integrated episodic scenes (HPC). Using primitive transformation dynamics as a benchmark, we demonstrate the model's capacity for structural abstraction. By leveraging velocity-driven path integration, the framework enables robust prediction and structural reuse across diverse contexts, thereby achieving structural generalization. This work provides a novel computational framework for understanding how brain-inspired, self-supervised learning of world models facilitates the acquisition of reusable abstract knowledge.