IMWM: Intuition Models Complement World Models for Latent Planning
作者: Baoqi Gao, Ruize Han, Miao Wang, Song Wang
分类: cs.LG
发布日期: 2026-06-01
💡 一句话要点
IMWM:结合直觉模型与世界模型进行潜在空间规划,提升像素级控制任务性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 世界模型 直觉模型 潜在空间规划 像素级控制 强化学习
📋 核心要点
- 现有方法依赖于强大的世界模型进行规划,但在复杂任务中,即使拥有完美的世界模型,规划器仍然可能因为搜索效率低下而失败。
- IMWM通过引入直觉模型来辅助世界模型,该直觉模型从演示数据中学习,用于识别有希望的动作,从而指导规划过程。
- 实验结果表明,IMWM在多个像素级控制任务中显著提高了规划成功率,尤其是在Two-Room和OGBench-Cube等复杂环境中。
📝 摘要(中文)
本文研究了基于学习的潜在世界模型进行规划的问题,发现仅依靠强大的世界模型是不够的。实验表明,即使使用完美的世界模型(通过真实环境动力学的理想化展开来模拟),有限预算的基于采样的规划器在某些任务上仍然失败,这表明瓶颈可能在于搜索,而不是世界模型的准确性。为此,我们提出了IMWM(直觉模型+世界模型),它将世界模型与从演示中训练的直觉模型配对,以识别有希望的动作。这两个模型通过三个轻量级组件协同工作:(i)检索初始化,从检索到的演示中初始化规划器的动作提议;(ii)混合成本,将直觉分数与世界模型展开成本相结合;(iii)可靠性门控,调整规划器在每个设置中对直觉的信任程度。在四个基于像素的目标到达任务(Two-Room、Reacher、Push-T和OGBench-Cube)中,IMWM在所有四个任务上都比仅使用世界模型的规划器具有更高的平均成功率,其中在Two-Room(99.2%,+11.5个百分点)和OGBench-Cube(94.7%,+28.5个百分点)上的增益最大。
🔬 方法详解
问题定义:论文旨在解决在复杂像素级控制任务中,仅依赖世界模型进行规划时,由于搜索空间巨大和效率低下而导致的规划失败问题。现有方法虽然致力于提升世界模型的精度,但忽略了规划算法本身的局限性。即使拥有完美的预测模型,有限的计算资源也可能导致规划器无法找到最优解。
核心思路:论文的核心思路是利用从专家演示中学习到的“直觉模型”来引导规划过程。直觉模型能够识别有希望的动作,从而缩小搜索空间,提高规划效率。通过将直觉模型与世界模型相结合,IMWM能够在保证预测准确性的同时,提升规划的效率和成功率。
技术框架:IMWM的整体框架包含世界模型和直觉模型两个主要组成部分。世界模型负责预测环境的未来状态,直觉模型负责评估动作的优劣。这两个模型通过三个关键组件进行协同:(1)检索初始化:从演示数据中检索与当前状态相似的轨迹,并使用其动作序列初始化规划器的搜索过程;(2)混合成本:将世界模型预测的成本与直觉模型给出的分数相结合,作为规划器的优化目标;(3)可靠性门控:根据当前状态的置信度,动态调整直觉模型在规划过程中的权重。
关键创新:IMWM的关键创新在于将直觉模型引入到基于世界模型的规划框架中。与传统的仅依赖世界模型的规划方法相比,IMWM能够利用先验知识来指导搜索过程,从而显著提高规划效率和成功率。此外,混合成本和可靠性门控机制使得IMWM能够灵活地平衡世界模型和直觉模型的作用,从而适应不同的任务和环境。
关键设计:直觉模型通常采用分类或回归的方式进行训练,输入为当前状态,输出为动作的概率分布或价值函数。混合成本函数通常采用加权平均的方式,将世界模型预测的成本和直觉模型给出的分数进行组合。可靠性门控机制通常基于状态的不确定性或置信度进行设计,例如,当状态的不确定性较高时,降低直觉模型的权重,反之则增加其权重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,IMWM在四个像素级控制任务中均优于仅使用世界模型的规划器。在Two-Room任务中,IMWM的成功率提高了11.5个百分点,达到99.2%;在OGBench-Cube任务中,成功率提高了28.5个百分点,达到94.7%。这些结果表明,IMWM能够有效地利用直觉模型来指导规划过程,从而显著提高规划性能。
🎯 应用场景
IMWM具有广泛的应用前景,可应用于机器人导航、游戏AI、自动驾驶等领域。该方法能够提升智能体在复杂环境中的决策能力,使其能够更有效地完成各种任务。通过结合世界模型和直觉模型,IMWM有望在资源受限的场景下实现更智能、更高效的控制。
📄 摘要(原文)
Planning with a learned latent world model is a promising route to control from raw pixels, but a strong world model alone is not enough. We show this experimentally: even with a perfect world model (operationalized by replacing the learned forward predictor with an idealized rollout of the true environment dynamics), a finite-budget sample-based planner still fails on some tasks, indicating that the bottleneck can lie in search rather than in world-model accuracy. Motivated by this gap, we propose IMWM (Intuition Model + World Model), which pairs the world model with an intuition model trained from demonstrations to recognize promising actions. The two models collaborate through three lightweight components: (i) Retrieval Initialization, which initializes the planner's action proposal from a retrieved demonstration; (ii) Hybrid Cost, which combines the intuition score with the world-model rollout cost; and (iii) a Reliability Gate, which adjusts how much the planner trusts intuition in each setting. Across four pixel-based goal-reaching tasks (Two-Room, Reacher, Push-T, and OGBench-Cube), IMWM has higher mean success than the world-model-only planner on all four, with the largest gains on Two-Room (99.2%, +11.5 percentage points) and OGBench-Cube (94.7%, +28.5 percentage points).