GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment

作者: Haoyang He, Jay Patrikar, Dong-Ki Kim, Max Smith, Daniel McGann, Ali-akbar Agha-mohammadi, Shayegan Omidshafiei, Sebastian Scherer

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2025-12-01

💡 一句话要点

GrndCtrl：通过自监督奖励对齐实现世界模型的几何化，提升导航稳定性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 世界模型 自监督学习 强化学习 几何约束 具身导航

📋 核心要点

现有的视频世界模型缺乏几何基础，限制了其在需要空间连贯性和长时程稳定性的导航任务中的应用。
RLWG框架通过几何和感知奖励，对预训练世界模型进行自监督后训练，使其与物理可验证的结构对齐。
GrndCtrl作为RLWG的实例，通过奖励对齐，显著提升了世界模型的空间连贯性和导航稳定性，优于监督微调。

📝 摘要（中文）

本文提出了一种名为“世界几何化强化学习”（RLWG）的自监督后训练框架，旨在通过几何和感知奖励，将预训练的世界模型与物理上可验证的结构对齐。类似于语言模型中的可验证反馈强化学习（RLVR），RLWG利用多种奖励来衡量姿态循环一致性、深度重投影和时间连贯性。该框架的一个实例是GrndCtrl，一种基于群体相对策略优化（GRPO）的奖励对齐方法，它使世界模型能够保持稳定的轨迹、一致的几何形状和可靠的rollout，从而实现具身导航。类似于大型语言模型中的后训练对齐，GrndCtrl利用可验证的奖励来弥合生成式预训练和几何化行为之间的差距，在户外环境中实现了优于监督微调的空间连贯性和导航稳定性。

🔬 方法详解

问题定义：现有视频世界模型虽然在视觉逼真度上表现出色，但缺乏几何基础，导致在需要空间连贯性和长期稳定性的具身导航任务中表现不佳。现有方法难以保证生成轨迹的几何一致性，从而影响导航的可靠性。

核心思路：本文的核心思路是通过自监督学习的方式，利用几何和感知奖励来对齐预训练的世界模型，使其具备物理可验证的几何结构。通过奖励函数引导模型学习，从而弥补生成式预训练和具身行为之间的差距。

技术框架：RLWG框架包含以下几个主要阶段：1) 预训练世界模型：使用大规模视频数据进行预训练，学习环境的视觉表征。2) 奖励函数设计：设计多个奖励函数，包括姿态循环一致性、深度重投影和时间连贯性，用于衡量生成轨迹的几何一致性。3) 奖励对齐：使用强化学习算法（如GRPO）对预训练模型进行后训练，最大化累积奖励，从而使模型生成具有几何一致性的轨迹。GrndCtrl是基于GRPO的RLWG的具体实现。

关键创新：最重要的创新点在于提出了自监督奖励对齐的方法，将几何约束融入到世界模型的训练过程中。与传统的监督微调方法不同，该方法不需要人工标注的几何信息，而是通过自监督的方式学习几何结构。此外，借鉴了语言模型中RLVR的思想，将可验证的奖励引入到世界模型的训练中。

关键设计：奖励函数的设计是关键。姿态循环一致性奖励鼓励模型生成闭环轨迹；深度重投影奖励鼓励模型生成与深度信息一致的图像；时间连贯性奖励鼓励模型生成平滑的轨迹。GrndCtrl使用GRPO算法进行优化，该算法通过群体策略优化来提高训练的稳定性和效率。具体的参数设置和网络结构细节在论文中有详细描述，此处不再赘述。

🖼️ 关键图片

📊 实验亮点

GrndCtrl在户外导航环境中取得了显著的性能提升。实验结果表明，与监督微调方法相比，GrndCtrl能够生成更稳定的轨迹，具有更高的空间连贯性。具体的数据指标和对比结果在论文中有详细展示，证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、虚拟现实等领域。通过提升世界模型的几何一致性和导航稳定性，可以提高机器人在复杂环境中的自主导航能力，降低安全风险。此外，该方法还可以用于生成更逼真的虚拟环境，提升用户体验。

📄 摘要（原文）

Recent advances in video world modeling have enabled large-scale generative models to simulate embodied environments with high visual fidelity, providing strong priors for prediction, planning, and control. Yet, despite their realism, these models often lack geometric grounding, limiting their use in navigation tasks that require spatial coherence and long-horizon stability. We introduce Reinforcement Learning with World Grounding (RLWG), a self-supervised post-training framework that aligns pretrained world models with a physically verifiable structure through geometric and perceptual rewards. Analogous to reinforcement learning from verifiable feedback (RLVR) in language models, RLWG can use multiple rewards that measure pose cycle-consistency, depth reprojection, and temporal coherence. We instantiate this framework with GrndCtrl, a reward-aligned adaptation method based on Group Relative Policy Optimization (GRPO), yielding world models that maintain stable trajectories, consistent geometry, and reliable rollouts for embodied navigation. Like post-training alignment in large language models, GrndCtrl leverages verifiable rewards to bridge generative pretraining and grounded behavior, achieving superior spatial coherence and navigation stability over supervised fine-tuning in outdoor environments.

GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理