GeoWorld: Geometric World Models

作者: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley

分类: cs.CV, cs.RO

发布日期: 2026-02-26

备注: Accepted to CVPR 2026

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

GeoWorld：通过双曲几何世界模型提升多步视觉规划性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 世界模型 双曲几何 视觉规划 强化学习 几何表示

📋 核心要点

现有基于能量的世界模型忽略了状态间的几何结构，限制了其表示能力。
GeoWorld利用双曲几何建模状态空间，并结合几何强化学习进行能量优化。
实验表明，GeoWorld在多步规划任务中显著优于现有方法，提升了规划成功率。

📝 摘要（中文）

基于能量的预测世界模型通过推理潜在能量场而非生成像素，为多步视觉规划提供了一种强大的方法。然而，现有方法面临两个主要挑战：(i) 它们的潜在表示通常在欧几里得空间中学习，忽略了状态之间潜在的几何和分层结构；(ii) 它们难以进行长时程预测，导致扩展展开过程中的快速退化。为了解决这些挑战，我们提出了 GeoWorld，一种几何世界模型，它通过双曲JEPA将潜在表示从欧几里得空间映射到双曲流形上，从而保留了几何结构和分层关系。我们进一步引入了几何强化学习用于基于能量的优化，从而在双曲潜在空间中实现稳定的多步规划。在CrossTask和COIN上的大量实验表明，与最先进的V-JEPA 2相比，3步规划的成功率提高了约3%，4步规划的成功率提高了约2%。

🔬 方法详解

问题定义：现有基于能量的世界模型通常在欧几里得空间中学习潜在表示，无法有效捕捉状态之间的几何和分层结构。这导致模型在长时程预测中性能迅速下降，难以进行有效的多步视觉规划。现有方法的痛点在于缺乏对底层几何结构的建模能力，限制了其泛化性和长期预测能力。

核心思路：GeoWorld的核心思路是将潜在表示映射到双曲流形上，利用双曲空间的几何特性来保留状态之间的几何关系和分层结构。通过在双曲空间中进行推理和规划，可以更好地捕捉复杂环境的动态特性，从而提高长时程预测的准确性和稳定性。此外，结合几何强化学习，能够在双曲潜在空间中进行有效的能量优化，进一步提升规划性能。

技术框架：GeoWorld的整体架构包括一个双曲JEPA（Joint Embedding Predictive Architecture）和一个几何强化学习模块。双曲JEPA负责将视觉输入编码到双曲潜在空间中，并预测未来的状态。几何强化学习模块则利用双曲空间中的几何信息，对能量函数进行优化，从而指导模型的学习过程。整个框架通过端到端的方式进行训练，以实现高效的多步视觉规划。

关键创新：GeoWorld最重要的技术创新点在于将双曲几何引入到世界模型中。与传统的欧几里得空间相比，双曲空间具有更好的表示能力，能够更有效地捕捉状态之间的复杂关系。此外，几何强化学习模块的引入，使得模型能够在双曲潜在空间中进行有效的能量优化，进一步提升了规划性能。与现有方法的本质区别在于，GeoWorld显式地建模了状态空间的几何结构，从而提高了模型的泛化性和长期预测能力。

关键设计：GeoWorld的关键设计包括双曲JEPA的网络结构、几何强化学习的损失函数以及双曲空间中的优化算法。双曲JEPA采用了一种特殊的网络结构，能够将视觉输入映射到双曲空间中，并保留其几何信息。几何强化学习的损失函数则考虑了双曲空间中的距离和曲率，以实现更有效的能量优化。此外，GeoWorld还采用了一种特殊的优化算法，能够在双曲空间中进行高效的梯度下降。

🖼️ 关键图片

📊 实验亮点

GeoWorld在CrossTask和COIN数据集上进行了大量实验，结果表明，与最先进的V-JEPA 2相比，GeoWorld在3步规划的成功率上提高了约3%，在4步规划的成功率上提高了约2%。这些结果表明，GeoWorld能够有效地捕捉环境的几何结构和动态特性，从而提高多步视觉规划的性能。

🎯 应用场景

GeoWorld具有广泛的应用前景，例如机器人导航、自动驾驶、视频游戏AI等。通过学习环境的几何结构和动态特性，GeoWorld可以帮助机器人或智能体更好地理解周围环境，并进行更有效的规划和决策。此外，GeoWorld还可以应用于视频预测、动作识别等领域，为人工智能的发展提供新的思路和方法。

📄 摘要（原文）

Energy-based predictive world models provide a powerful approach for multi-step visual planning by reasoning over latent energy landscapes rather than generating pixels. However, existing approaches face two major challenges: (i) their latent representations are typically learned in Euclidean space, neglecting the underlying geometric and hierarchical structure among states, and (ii) they struggle with long-horizon prediction, which leads to rapid degradation across extended rollouts. To address these challenges, we introduce GeoWorld, a geometric world model that preserves geometric structure and hierarchical relations through a Hyperbolic JEPA, which maps latent representations from Euclidean space onto hyperbolic manifolds. We further introduce Geometric Reinforcement Learning for energy-based optimization, enabling stable multi-step planning in hyperbolic latent space. Extensive experiments on CrossTask and COIN demonstrate around 3% SR improvement in 3-step planning and 2% SR improvement in 4-step planning compared to the state-of-the-art V-JEPA 2. Project website: https://steve-zeyu-zhang.github.io/GeoWorld.

GeoWorld: Geometric World Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理