GeoWorld: Geometric World Models

作者: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley

分类: cs.CV, cs.RO

发布日期: 2026-02-28

💡 一句话要点

GeoWorld：提出基于双曲几何的World Model，提升多步视觉规划性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 世界模型 双曲几何 视觉规划 强化学习 几何表示 长时程预测

📋 核心要点

现有基于能量的世界模型忽略了状态间的几何结构和层级关系，限制了其表达能力。
GeoWorld通过双曲几何建模潜在空间，利用双曲JEPA保留几何结构和层级关系。
实验表明，GeoWorld在多步规划任务中显著优于现有方法，成功率提升明显。

📝 摘要（中文）

基于能量的预测世界模型通过推理潜在能量场而非生成像素，为多步视觉规划提供了一种强大的方法。然而，现有方法面临两个主要挑战：（i）它们的潜在表示通常在欧几里得空间中学习，忽略了状态之间潜在的几何和分层结构；（ii）它们难以进行长时程预测，导致扩展rollout过程中的快速退化。为了应对这些挑战，我们引入了GeoWorld，一种几何世界模型，它通过双曲JEPA将潜在表示从欧几里得空间映射到双曲流形，从而保留了几何结构和分层关系。我们进一步引入了几何强化学习用于基于能量的优化，从而在双曲潜在空间中实现稳定的多步规划。在CrossTask和COIN上的大量实验表明，与最先进的V-JEPA 2相比，3步规划的成功率提高了约3%，4步规划的成功率提高了约2%。

🔬 方法详解

问题定义：现有基于能量的世界模型在学习潜在表示时，通常采用欧几里得空间，这忽略了状态之间存在的内在几何结构和层级关系。此外，这些模型在长时程预测中表现不佳，导致预测结果快速退化，限制了其在复杂任务中的应用。

核心思路：GeoWorld的核心思路是将潜在状态表示映射到双曲空间中，利用双曲空间的特性来更好地捕捉状态之间的几何关系和层级结构。通过在双曲空间中进行推理和规划，可以更有效地进行长时程预测，并提高规划的准确性和稳定性。

技术框架：GeoWorld主要包含两个核心模块：双曲JEPA（Hyperbolic JEPA）和几何强化学习（Geometric Reinforcement Learning）。双曲JEPA负责将欧几里得空间的潜在表示映射到双曲流形上，从而保留几何结构和层级关系。几何强化学习则用于在双曲潜在空间中进行基于能量的优化，实现稳定的多步规划。整体流程为：输入视觉信息，通过编码器映射到欧几里得空间，再通过双曲JEPA映射到双曲空间，最后利用几何强化学习进行规划。

关键创新：GeoWorld的关键创新在于使用双曲几何来建模潜在状态空间。与传统的欧几里得空间相比，双曲空间具有更好的表达能力，能够更有效地捕捉状态之间的复杂关系。此外，GeoWorld还引入了几何强化学习，专门用于在双曲空间中进行优化，从而提高了规划的稳定性和效率。

关键设计：双曲JEPA采用双曲神经网络来实现欧几里得空间到双曲空间的映射。几何强化学习则基于能量的优化方法，并针对双曲空间的特性进行了调整。损失函数包括重构损失和对比损失，用于学习有效的潜在表示。具体的网络结构和参数设置根据不同的任务进行调整。

🖼️ 关键图片

📊 实验亮点

GeoWorld在CrossTask和COIN数据集上进行了实验，结果表明，与最先进的V-JEPA 2相比，GeoWorld在3步规划的成功率上提高了约3%，在4步规划的成功率上提高了约2%。这些结果表明，GeoWorld能够更有效地进行多步规划，并显著优于现有方法。

🎯 应用场景

GeoWorld在机器人导航、视频游戏AI、自动驾驶等领域具有广泛的应用前景。通过更准确地预测未来状态，GeoWorld可以帮助智能体更好地规划行动，从而完成更复杂的任务。此外，该研究对于理解和建模复杂系统的动态行为也具有重要的理论价值。

📄 摘要（原文）

Energy-based predictive world models provide a powerful approach for multi-step visual planning by reasoning over latent energy landscapes rather than generating pixels. However, existing approaches face two major challenges: (i) their latent representations are typically learned in Euclidean space, neglecting the underlying geometric and hierarchical structure among states, and (ii) they struggle with long-horizon prediction, which leads to rapid degradation across extended rollouts. To address these challenges, we introduce GeoWorld, a geometric world model that preserves geometric structure and hierarchical relations through a Hyperbolic JEPA, which maps latent representations from Euclidean space onto hyperbolic manifolds. We further introduce Geometric Reinforcement Learning for energy-based optimization, enabling stable multi-step planning in hyperbolic latent space. Extensive experiments on CrossTask and COIN demonstrate around 3% SR improvement in 3-step planning and 2% SR improvement in 4-step planning compared to the state-of-the-art V-JEPA 2. Project website:this https URL.

GeoWorld: Geometric World Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理