GeoWorld: Geometric World Models

📄 arXiv: 2602.23058 📥 PDF

作者: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley

分类: cs.CV, cs.RO

发布日期: 2026-02-28


💡 一句话要点

GeoWorld:提出基于双曲几何的World Model,提升多步视觉规划性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界模型 双曲几何 视觉规划 强化学习 几何表示 长时程预测

📋 核心要点

  1. 现有基于能量的世界模型忽略了状态间的几何结构和层级关系,限制了其表达能力。
  2. GeoWorld通过双曲几何建模潜在空间,利用双曲JEPA保留几何结构和层级关系。
  3. 实验表明,GeoWorld在多步规划任务中显著优于现有方法,成功率提升明显。

📝 摘要(中文)

基于能量的预测世界模型通过推理潜在能量场而非生成像素,为多步视觉规划提供了一种强大的方法。然而,现有方法面临两个主要挑战:(i)它们的潜在表示通常在欧几里得空间中学习,忽略了状态之间潜在的几何和分层结构;(ii)它们难以进行长时程预测,导致扩展rollout过程中的快速退化。为了应对这些挑战,我们引入了GeoWorld,一种几何世界模型,它通过双曲JEPA将潜在表示从欧几里得空间映射到双曲流形,从而保留了几何结构和分层关系。我们进一步引入了几何强化学习用于基于能量的优化,从而在双曲潜在空间中实现稳定的多步规划。在CrossTask和COIN上的大量实验表明,与最先进的V-JEPA 2相比,3步规划的成功率提高了约3%,4步规划的成功率提高了约2%。

🔬 方法详解

问题定义:现有基于能量的世界模型在学习潜在表示时,通常采用欧几里得空间,这忽略了状态之间存在的内在几何结构和层级关系。此外,这些模型在长时程预测中表现不佳,导致预测结果快速退化,限制了其在复杂任务中的应用。

核心思路:GeoWorld的核心思路是将潜在状态表示映射到双曲空间中,利用双曲空间的特性来更好地捕捉状态之间的几何关系和层级结构。通过在双曲空间中进行推理和规划,可以更有效地进行长时程预测,并提高规划的准确性和稳定性。

技术框架:GeoWorld主要包含两个核心模块:双曲JEPA(Hyperbolic JEPA)和几何强化学习(Geometric Reinforcement Learning)。双曲JEPA负责将欧几里得空间的潜在表示映射到双曲流形上,从而保留几何结构和层级关系。几何强化学习则用于在双曲潜在空间中进行基于能量的优化,实现稳定的多步规划。整体流程为:输入视觉信息,通过编码器映射到欧几里得空间,再通过双曲JEPA映射到双曲空间,最后利用几何强化学习进行规划。

关键创新:GeoWorld的关键创新在于使用双曲几何来建模潜在状态空间。与传统的欧几里得空间相比,双曲空间具有更好的表达能力,能够更有效地捕捉状态之间的复杂关系。此外,GeoWorld还引入了几何强化学习,专门用于在双曲空间中进行优化,从而提高了规划的稳定性和效率。

关键设计:双曲JEPA采用双曲神经网络来实现欧几里得空间到双曲空间的映射。几何强化学习则基于能量的优化方法,并针对双曲空间的特性进行了调整。损失函数包括重构损失和对比损失,用于学习有效的潜在表示。具体的网络结构和参数设置根据不同的任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GeoWorld在CrossTask和COIN数据集上进行了实验,结果表明,与最先进的V-JEPA 2相比,GeoWorld在3步规划的成功率上提高了约3%,在4步规划的成功率上提高了约2%。这些结果表明,GeoWorld能够更有效地进行多步规划,并显著优于现有方法。

🎯 应用场景

GeoWorld在机器人导航、视频游戏AI、自动驾驶等领域具有广泛的应用前景。通过更准确地预测未来状态,GeoWorld可以帮助智能体更好地规划行动,从而完成更复杂的任务。此外,该研究对于理解和建模复杂系统的动态行为也具有重要的理论价值。

📄 摘要(原文)

Energy-based predictive world models provide a powerful approach for multi-step visual planning by reasoning over latent energy landscapes rather than generating pixels. However, existing approaches face two major challenges: (i) their latent representations are typically learned in Euclidean space, neglecting the underlying geometric and hierarchical structure among states, and (ii) they struggle with long-horizon prediction, which leads to rapid degradation across extended rollouts. To address these challenges, we introduce GeoWorld, a geometric world model that preserves geometric structure and hierarchical relations through a Hyperbolic JEPA, which maps latent representations from Euclidean space onto hyperbolic manifolds. We further introduce Geometric Reinforcement Learning for energy-based optimization, enabling stable multi-step planning in hyperbolic latent space. Extensive experiments on CrossTask and COIN demonstrate around 3% SR improvement in 3-step planning and 2% SR improvement in 4-step planning compared to the state-of-the-art V-JEPA 2. Project website:this https URL.