Prismatic World Model: Learning Compositional Dynamics for Planning in Hybrid Systems
作者: Mingwei Li, Xiaoyuan Zhang, Chengwei Yang, Zilong Zheng, Yaodong Yang
分类: cs.AI, cs.RO
发布日期: 2025-12-09
💡 一句话要点
PRISM-WM:学习混合系统可组合动力学模型用于规划
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 混合动力学系统 世界模型 模型预测控制 混合专家系统 机器人控制
📋 核心要点
- 传统潜在世界模型难以处理机器人领域中混合动力学,过度平滑不同动态模式,导致长时程规划误差累积。
- PRISM-WM通过上下文感知的混合专家系统分解复杂动力学,每个专家负责特定模式,并采用正交化目标保证专家多样性。
- 实验表明,PRISM-WM能更准确地建模模式转换,减少rollout漂移,为轨迹优化算法提供高保真基底。
📝 摘要(中文)
在机器人领域,基于模型的规划面临物理动力学混合特性的根本挑战,即连续运动被接触和冲击等离散事件打断。传统的潜在世界模型通常采用强制全局连续性的单体神经网络,不可避免地过度平滑了不同的动态模式(例如,粘滞与滑动,飞行与站立)。对于规划器而言,这种平滑会导致长时程预测中灾难性的复合误差,使得搜索过程在物理边界处变得不可靠。为了解决这个问题,我们引入了棱柱世界模型(PRISM-WM),这是一种结构化架构,旨在将复杂的混合动力学分解为可组合的基元。PRISM-WM利用上下文感知的混合专家(MoE)框架,其中门控机制隐式地识别当前的物理模式,而专门的专家预测相关的过渡动力学。我们进一步引入了潜在正交化目标,以确保专家的多样性,有效地防止模式崩溃。通过准确地建模系统动力学中的急剧模式转换,PRISM-WM显著减少了rollout漂移。在具有挑战性的连续控制基准(包括高维人形机器人和各种多任务设置)上的大量实验表明,PRISM-WM为轨迹优化算法(例如,TD-MPC)提供了卓越的高保真基底,证明了其作为下一代基于模型的代理的强大基础模型的潜力。
🔬 方法详解
问题定义:论文旨在解决机器人领域中基于模型的规划在处理混合动力学系统时遇到的困难。现有方法,特别是基于单体神经网络的潜在世界模型,由于其全局连续性的约束,无法准确捕捉不同动态模式之间的突变,导致长时程预测中误差累积,使得规划过程在物理边界处失效。
核心思路:论文的核心思路是将复杂的混合动力学系统分解为多个可组合的基元,每个基元对应一种特定的动态模式。通过学习这些基元之间的转换关系,可以更准确地预测系统的未来状态,从而提高规划的可靠性。这种分解的思想借鉴了模块化设计的优势,使得模型能够更好地适应不同的环境和任务。
技术框架:PRISM-WM采用上下文感知的混合专家(MoE)框架。该框架包含一个门控网络和多个专家网络。门控网络根据当前状态选择合适的专家,每个专家负责预测特定动态模式下的状态转移。整个框架通过端到端的方式进行训练,使得门控网络能够学习到如何根据上下文信息选择合适的专家,从而实现对混合动力学系统的准确建模。
关键创新:PRISM-WM的关键创新在于其结构化的架构,能够将复杂的混合动力学分解为可组合的基元。此外,论文还提出了潜在正交化目标,用于确保专家网络的多样性,防止模式崩溃。这种正交化目标鼓励不同的专家学习到不同的动态模式,从而提高模型的整体性能。
关键设计:PRISM-WM的关键设计包括:1) 上下文感知的混合专家(MoE)框架,用于根据当前状态选择合适的专家;2) 潜在正交化目标,用于确保专家网络的多样性;3) 损失函数的设计,用于优化门控网络和专家网络的参数。具体的网络结构和参数设置需要根据具体的任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PRISM-WM在多个具有挑战性的连续控制基准上取得了显著的性能提升,包括高维人形机器人和各种多任务设置。与传统的潜在世界模型相比,PRISM-WM能够更准确地建模模式转换,减少rollout漂移,从而为轨迹优化算法提供更可靠的基底。具体性能数据在论文中有详细展示。
🎯 应用场景
PRISM-WM在机器人控制、自动驾驶、游戏AI等领域具有广泛的应用前景。它可以用于训练更智能、更可靠的机器人,使其能够在复杂环境中完成各种任务。例如,可以应用于人形机器人的运动控制,使其能够更好地适应不同的地形和障碍物。此外,PRISM-WM还可以用于开发更逼真的游戏AI,使其能够更好地模拟真实世界的物理规律。
📄 摘要(原文)
Model-based planning in robotic domains is fundamentally challenged by the hybrid nature of physical dynamics, where continuous motion is punctuated by discrete events such as contacts and impacts. Conventional latent world models typically employ monolithic neural networks that enforce global continuity, inevitably over-smoothing the distinct dynamic modes (e.g., sticking vs. sliding, flight vs. stance). For a planner, this smoothing results in catastrophic compounding errors during long-horizon lookaheads, rendering the search process unreliable at physical boundaries. To address this, we introduce the Prismatic World Model (PRISM-WM), a structured architecture designed to decompose complex hybrid dynamics into composable primitives. PRISM-WM leverages a context-aware Mixture-of-Experts (MoE) framework where a gating mechanism implicitly identifies the current physical mode, and specialized experts predict the associated transition dynamics. We further introduce a latent orthogonalization objective to ensure expert diversity, effectively preventing mode collapse. By accurately modeling the sharp mode transitions in system dynamics, PRISM-WM significantly reduces rollout drift. Extensive experiments on challenging continuous control benchmarks, including high-dimensional humanoids and diverse multi-task settings, demonstrate that PRISM-WM provides a superior high-fidelity substrate for trajectory optimization algorithms (e.g., TD-MPC), proving its potential as a powerful foundational model for next-generation model-based agents.