GeoWorld: Geometric World Models
作者: Zeyu Zhang, Danning Li, Ian Reid, Richard Hartley
分类: cs.CV, cs.RO
发布日期: 2026-02-26
备注: Accepted to CVPR 2026
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
GeoWorld:通过双曲几何世界模型提升多步视觉规划性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 世界模型 双曲几何 视觉规划 强化学习 几何表示
📋 核心要点
- 现有基于能量的世界模型忽略了状态间的几何结构,限制了其表示能力。
- GeoWorld利用双曲几何建模状态空间,并结合几何强化学习进行能量优化。
- 实验表明,GeoWorld在多步规划任务中显著优于现有方法,提升了规划成功率。
📝 摘要(中文)
基于能量的预测世界模型通过推理潜在能量场而非生成像素,为多步视觉规划提供了一种强大的方法。然而,现有方法面临两个主要挑战:(i) 它们的潜在表示通常在欧几里得空间中学习,忽略了状态之间潜在的几何和分层结构;(ii) 它们难以进行长时程预测,导致扩展展开过程中的快速退化。为了解决这些挑战,我们提出了 GeoWorld,一种几何世界模型,它通过双曲JEPA将潜在表示从欧几里得空间映射到双曲流形上,从而保留了几何结构和分层关系。我们进一步引入了几何强化学习用于基于能量的优化,从而在双曲潜在空间中实现稳定的多步规划。在CrossTask和COIN上的大量实验表明,与最先进的V-JEPA 2相比,3步规划的成功率提高了约3%,4步规划的成功率提高了约2%。
🔬 方法详解
问题定义:现有基于能量的世界模型通常在欧几里得空间中学习潜在表示,无法有效捕捉状态之间的几何和分层结构。这导致模型在长时程预测中性能迅速下降,难以进行有效的多步视觉规划。现有方法的痛点在于缺乏对底层几何结构的建模能力,限制了其泛化性和长期预测能力。
核心思路:GeoWorld的核心思路是将潜在表示映射到双曲流形上,利用双曲空间的几何特性来保留状态之间的几何关系和分层结构。通过在双曲空间中进行推理和规划,可以更好地捕捉复杂环境的动态特性,从而提高长时程预测的准确性和稳定性。此外,结合几何强化学习,能够在双曲潜在空间中进行有效的能量优化,进一步提升规划性能。
技术框架:GeoWorld的整体架构包括一个双曲JEPA(Joint Embedding Predictive Architecture)和一个几何强化学习模块。双曲JEPA负责将视觉输入编码到双曲潜在空间中,并预测未来的状态。几何强化学习模块则利用双曲空间中的几何信息,对能量函数进行优化,从而指导模型的学习过程。整个框架通过端到端的方式进行训练,以实现高效的多步视觉规划。
关键创新:GeoWorld最重要的技术创新点在于将双曲几何引入到世界模型中。与传统的欧几里得空间相比,双曲空间具有更好的表示能力,能够更有效地捕捉状态之间的复杂关系。此外,几何强化学习模块的引入,使得模型能够在双曲潜在空间中进行有效的能量优化,进一步提升了规划性能。与现有方法的本质区别在于,GeoWorld显式地建模了状态空间的几何结构,从而提高了模型的泛化性和长期预测能力。
关键设计:GeoWorld的关键设计包括双曲JEPA的网络结构、几何强化学习的损失函数以及双曲空间中的优化算法。双曲JEPA采用了一种特殊的网络结构,能够将视觉输入映射到双曲空间中,并保留其几何信息。几何强化学习的损失函数则考虑了双曲空间中的距离和曲率,以实现更有效的能量优化。此外,GeoWorld还采用了一种特殊的优化算法,能够在双曲空间中进行高效的梯度下降。
🖼️ 关键图片
📊 实验亮点
GeoWorld在CrossTask和COIN数据集上进行了大量实验,结果表明,与最先进的V-JEPA 2相比,GeoWorld在3步规划的成功率上提高了约3%,在4步规划的成功率上提高了约2%。这些结果表明,GeoWorld能够有效地捕捉环境的几何结构和动态特性,从而提高多步视觉规划的性能。
🎯 应用场景
GeoWorld具有广泛的应用前景,例如机器人导航、自动驾驶、视频游戏AI等。通过学习环境的几何结构和动态特性,GeoWorld可以帮助机器人或智能体更好地理解周围环境,并进行更有效的规划和决策。此外,GeoWorld还可以应用于视频预测、动作识别等领域,为人工智能的发展提供新的思路和方法。
📄 摘要(原文)
Energy-based predictive world models provide a powerful approach for multi-step visual planning by reasoning over latent energy landscapes rather than generating pixels. However, existing approaches face two major challenges: (i) their latent representations are typically learned in Euclidean space, neglecting the underlying geometric and hierarchical structure among states, and (ii) they struggle with long-horizon prediction, which leads to rapid degradation across extended rollouts. To address these challenges, we introduce GeoWorld, a geometric world model that preserves geometric structure and hierarchical relations through a Hyperbolic JEPA, which maps latent representations from Euclidean space onto hyperbolic manifolds. We further introduce Geometric Reinforcement Learning for energy-based optimization, enabling stable multi-step planning in hyperbolic latent space. Extensive experiments on CrossTask and COIN demonstrate around 3% SR improvement in 3-step planning and 2% SR improvement in 4-step planning compared to the state-of-the-art V-JEPA 2. Project website: https://steve-zeyu-zhang.github.io/GeoWorld.