HaM-World: Soft-Hamiltonian World Models with Selective Memory for Planning
作者: Haoyun Tang, Haodong Cui, Keyao Xu, Kun Wang, Zhandong Mei
分类: cs.AI
发布日期: 2026-05-07
备注: 22 pages, 5 figures. Code: https://github.com/HaoyunT/HaM_World
💡 一句话要点
提出HaM-World模型,通过软哈密顿动力学与选择性记忆机制提升长程规划稳定性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 世界模型 哈密顿动力学 状态空间模型 长程规划 机器人控制 分布外鲁棒性 潜在动力学
📋 核心要点
- 现有世界模型在长程规划中因缺乏历史记忆与几何约束,导致想象轨迹随时间推移出现显著的不稳定性。
- 提出HaM-World模型,通过将潜在空间解耦为哈密顿动力学子空间与上下文子空间,并引入Mamba记忆机制。
- 实验证明该模型在DeepMind Control Suite任务中平均AUC提升9.5%,且在多种分布外扰动下表现出显著的鲁棒性。
📝 摘要(中文)
世界模型通过学习潜在动力学实现基于模型的规划,但随着规划视界增长或动力学分布偏移,想象出的轨迹往往变得不稳定。本文认为这种不稳定性源于规划器潜在空间中缺失两种结构:用于近似马尔可夫完备性的历史条件记忆,以及分离配置、动量与任务语义的几何组织。为此,作者提出了HaM-World (HMW),这是一种结构化世界模型,将潜在状态分解为正则(q, p)子空间和上下文子空间c,并利用Mamba选择性状态空间模型作为历史条件输入。在这一框架下,(q, p)通过能量导出的哈密顿向量场及可学习的残差/控制动力学演化,而c则捕获语义、耗散及非保守因素。实验表明,HaM-World在DeepMind Control Suite任务中表现优异,显著降低了长程轨迹误差,并在多种分布外(OOD)扰动下展现出极强的鲁棒性。
🔬 方法详解
问题定义:现有世界模型在长程规划中面临两大痛点:一是缺乏历史信息导致状态表示难以满足马尔可夫性;二是潜在空间的几何结构混乱,无法有效区分物理系统的保守动力学与任务相关的语义信息,导致长程预测误差累积。
核心思路:论文引入物理先验,将潜在空间划分为符合哈密顿力学的正则子空间(q, p)和捕捉非保守语义的上下文子空间c。通过Mamba选择性状态空间模型处理历史序列,为动力学演化提供完备的上下文信息。
技术框架:整体架构包含三个核心部分:基于Mamba的记忆编码器用于提取历史特征;哈密顿动力学模块负责(q, p)的演化,模拟能量守恒与控制输入;以及上下文模块c,用于处理耗散项和任务语义。规划器共享这一统一的潜在状态进行轨迹想象与动作搜索。
关键创新:首次将软哈密顿动力学与选择性状态空间模型(SSM)结合。这种设计不仅保证了物理上的能量演化一致性,还通过Mamba解决了长序列历史信息的有效建模问题,实现了对复杂动力学系统的精确控制。
关键设计:(q, p)的演化遵循哈密顿向量场,并叠加可学习的残差项以补偿非保守力。模型通过能量漂移诊断机制,确保在无动作干预时哈密顿能量保持有界,从而提升了长程预测的稳定性。
🖼️ 关键图片
📊 实验亮点
HaM-World在DeepMind Control Suite任务中取得了117.9的最高平均AUC,较基线提升9.5%。在长程轨迹预测中,误差降至强基线的45%。在涵盖动力学偏移、动作延迟及观测遮挡等12种分布外(OOD)扰动测试中,该模型在所有条件下均达到最高回报,平均OOD回报增益在Finger Spin任务中达10.2%,Reacher Easy任务中达13.6%。
🎯 应用场景
该研究主要应用于复杂环境下的机器人控制与自主导航。通过提升长程规划的稳定性与分布外鲁棒性,HaM-World可有效解决工业自动化、无人驾驶及复杂动态环境中的决策难题,特别是在传感器噪声大、动力学参数易变或存在动作延迟的实际场景中具有极高的应用价值。
📄 摘要(原文)
World models enable model-based planning through learned latent dynamics, but imagined rollouts become unstable as the planning horizon grows or the dynamics distribution shifts. We argue that this instability reflects two missing structures in planner-facing latents: history-conditioned memory for approximate Markov completeness, and geometric organization that separates configuration, momentum, and task semantics. We propose HaM-World (HMW), a structured world model that decomposes the latent state into a canonical (q, p) subspace and a context subspace c, while using Mamba selective state-space memory as the history-conditioned input to the same latent dynamics. Within this interface, (q, p) evolves through an energy-derived Hamiltonian vector field plus learnable residual/control dynamics, while c captures semantic, dissipative, and non-conservative factors. This gives the planner a single latent state shared by dynamics prediction, reward/value estimation, imagined rollouts, and CEM action search. On four DeepMind Control Suite tasks, HaM-World reaches the highest Avg. AUC (117.9, +9.5%), reduces long-horizon rollout error to 45% of a strong baseline model, and wins 11/12 k in {3,5,7} MSE cells. Under 12 OOD perturbations spanning dynamics shifts, action delay, and observation masking, HaM-World achieves the highest return in every condition, with average OOD-return gains of 10.2% on Finger Spin and 13.6% on Reacher Easy. Mechanism diagnostics further show bounded action-free Hamiltonian-energy drift, structured energy variation under policy rollouts, and coherent control-induced energy transfer, supporting the intended Soft-Hamiltonian dynamics design.