Mind Dreamer: Untethering Imagination via Active Latent Intervention on Latent Manifolds
作者: Shaojun Xu, Xiaoling Zhou, Yihan Lin, Yapeng Meng, Xinglong Ji, Luping Shi, Rong Zhao
分类: cs.LG, cs.RO
发布日期: 2026-05-15
备注: 34 pages, 7 figures
💡 一句话要点
提出Mind Dreamer以解决模型基强化学习中的历史束缚问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 模型基强化学习 潜在干预 对抗生成器 信用分配 稀疏奖励优化
📋 核心要点
- 现有的模型基强化学习方法受到历史束缚的限制,导致学习效率低下。
- Mind Dreamer框架通过主动潜在干预,利用生成器采样初始状态,超越了传统的马尔可夫连续性。
- 在DeepMind控制套件上,Mind Dreamer实现了1.67倍的平均加速,稀疏奖励任务中更是达到8.8倍的提升。
📝 摘要(中文)
模型基强化学习(MBRL)利用潜在想象提高样本效率,但受到历史束缚的限制:想象通常从观察到的状态初始化。这导致了学习的不对称性,世界模型的流形发现速度超过了策略的稀疏奖励优化。我们提出Mind Dreamer(MD)框架,通过主动潜在干预(ALI)超越马尔可夫连续性。MD将发现重新表述为最小化全局中继流形期望自由能(R-EFE),通过从学习的生成器中采样初始状态,MD利用对抗生成器合成非连续的潜在跳跃,解决了跨越这些空间断裂的信用分配悖论。理论上,MD近似一种方差最小化的重要性采样器,实证上在DeepMind控制套件上实现了1.67倍的平均加速。
🔬 方法详解
问题定义:论文要解决的问题是模型基强化学习中历史束缚导致的学习效率低下。现有方法通常从历史状态初始化想象,造成了学习的不对称性。
核心思路:论文提出的Mind Dreamer框架通过主动潜在干预(ALI)来超越马尔可夫连续性,重新定义了状态的采样方式,从生成器中获取初始状态,以此来探索潜在空间。
技术框架:Mind Dreamer的整体架构包括生成器、对抗生成器和中继价值函数(RVF)与中继不确定性函数(RUF)。生成器用于采样初始状态,对抗生成器合成非连续的潜在跳跃,RVF和RUF用于信用分配。
关键创新:最重要的技术创新在于引入了中继流形期望自由能(R-EFE)和中继价值函数(RVF),通过这些新概念,MD能够有效处理跨越空间断裂的信用分配问题。
关键设计:在设计上,MD采用了对抗生成器以合成潜在状态,并引入了二次折扣因子以处理不确定性传播,确保了理论上的一致性和有效性。具体的损失函数和网络结构细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
Mind Dreamer在DeepMind控制套件上实现了1.67倍的平均加速,相较于DreamerV3在稀疏奖励任务中更是达到了8.8倍的提升。这表明MD在处理复杂环境中的学习效率显著提高,具有重要的实用价值。
🎯 应用场景
该研究的潜在应用领域包括机器人控制、自动驾驶和游戏AI等。通过提高模型基强化学习的样本效率,Mind Dreamer能够在稀疏奖励环境中更快地学习,从而在实际应用中实现更高的智能决策能力。未来,该方法可能推动更复杂系统的自主学习与适应能力。
📄 摘要(原文)
Model-Based Reinforcement Learning (MBRL) leverages latent imagination for sample efficiency, yet remains constrained by Historical Tethering: imagination is typically initialized from observed states. This creates a learning asymmetry, where the world model's manifold discovery outpaces the policy's sparse-reward optimization. We propose Mind Dreamer (MD), a framework that operationalizes Active Latent Intervention (ALI) to transcend Markovian continuity. MD reformulates discovery as the minimization of a global Relay Manifold Expected Free Energy (R-EFE); by sampling initial states from a learned generator $s_0 \sim p_{gen}(\cdot)$ rather than the historical buffer, MD utilizes an adversarial generator to synthesize non-continuous latent jumps to epistemic blind spots that are physically plausible yet cognitively challenging. To resolve the credit assignment paradox across these spatial ruptures, we derive the Relay Value Function (RVF) and Relay Uncertainty Function (RUF). These potentials treat synthesized anchors as counterfactual intermediary states, propagating pragmatic and epistemic value through a principled Bellman-style formulation. Notably, we prove that uncertainty propagation across discontinuities necessitates a quadratic discount $γ^2$, establishing a formal epistemic horizon. Theoretically, MD approximates a variance-minimizing importance sampler that expands the manifold's spectral gap, reducing the hitting time to critical bottleneck states. Empirically, MD achieves a 1.67$\times$ average speedup over DreamerV3 on DeepMind Control Suite, reaching 8.8$\times$ in sparse-reward tasks.