Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning
作者: Qi Wang, Zhipeng Zhang, Baao Xie, Xin Jin, Yunbo Wang, Shiyu Wang, Liaomo Zheng, Xiaokang Yang, Wenjun Zeng
分类: cs.CV, cs.LG
发布日期: 2026-04-07
💡 一句话要点
提出DisWM,通过离线知识蒸馏和解耦约束,提升视觉强化学习在复杂环境中的样本效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 解耦表示学习 世界模型 强化学习 知识蒸馏 视频预测 离线学习 迁移学习
📋 核心要点
- 现有视觉强化学习方法在复杂环境中样本效率低,且缺乏对世界先验知识的利用。
- DisWM通过离线预训练解耦视频预测模型,并利用潜在蒸馏将解耦能力迁移到世界模型。
- 实验表明,DisWM在多个基准测试中表现优异,验证了其有效性。
📝 摘要(中文)
在实际场景中训练视觉强化学习(RL)面临着重大挑战,即RL智能体在具有变化的环境中样本效率低下。虽然各种方法试图通过解耦表示学习来缓解这个问题,但这些方法通常从零开始学习,没有关于世界的先验知识。本文提出了一种方法,通过离线到在线的潜在蒸馏和灵活的解耦约束,从分散注意力的视频中学习和理解潜在的语义变化。为了实现有效的跨领域语义知识迁移,我们引入了一个可解释的基于模型的RL框架,称为解耦世界模型(DisWM)。具体来说,我们通过解耦正则化离线预训练无动作视频预测模型,以从分散注意力的视频中提取语义知识。然后,预训练模型的解耦能力通过潜在蒸馏转移到世界模型。为了在线环境中进行微调,我们利用预训练模型的知识,并向世界模型引入解耦约束。在适应阶段,来自在线环境交互的动作和奖励的结合丰富了数据的多样性,进而加强了解耦表示学习。实验结果验证了我们的方法在各种基准测试中的优越性。
🔬 方法详解
问题定义:视觉强化学习在实际应用中面临样本效率低下的问题,尤其是在存在干扰因素的环境中。现有的解耦表示学习方法通常从零开始,忽略了利用先验知识的可能性。因此,如何在复杂、多变的视觉环境中,高效地学习和利用语义知识,是本文要解决的核心问题。
核心思路:本文的核心思路是利用离线数据学习到的解耦表示,并通过知识蒸馏的方式迁移到在线强化学习环境中。通过预训练一个能够从干扰视频中提取语义信息的模型,并将其解耦能力传递给世界模型,从而提高样本效率和泛化能力。这种离线到在线的迁移学习方法,能够有效地利用先验知识,加速强化学习过程。
技术框架:DisWM框架主要包含两个阶段:离线预训练阶段和在线微调阶段。在离线预训练阶段,使用大量的无动作视频数据,训练一个解耦的视频预测模型。该模型通过解耦正则化,学习到视频中的语义信息。在在线微调阶段,将预训练模型的知识通过潜在蒸馏的方式迁移到世界模型中。同时,为了进一步提高解耦能力,在世界模型中引入解耦约束。
关键创新:本文的关键创新在于提出了一种离线到在线的解耦知识迁移方法。与传统的从零开始的强化学习方法不同,DisWM能够有效地利用离线数据中的语义信息,从而提高样本效率和泛化能力。此外,通过解耦正则化和潜在蒸馏,实现了跨领域语义知识的有效迁移。
关键设计:在离线预训练阶段,使用了VAE(Variational Autoencoder)结构,并引入了Total Correlation (TC) loss作为解耦正则化项,鼓励隐变量的不同维度表示不同的语义信息。在在线微调阶段,使用KL散度作为潜在蒸馏的损失函数,将预训练模型的隐变量分布迁移到世界模型中。此外,还设计了一个解耦约束损失函数,进一步提高世界模型的解耦能力。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DisWM在多个视觉强化学习基准测试中取得了显著的性能提升。例如,在Carla环境中,DisWM的性能超过了现有基线方法,证明了其在复杂环境中学习和泛化的能力。具体的性能数据和对比结果在论文中有详细展示。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、游戏AI等领域。通过利用大量的离线视频数据,可以预训练出具有良好泛化能力的智能体,从而降低在线训练的成本和风险。该方法尤其适用于那些难以获取大量高质量在线数据的场景。
📄 摘要(原文)
Training visual reinforcement learning (RL) in practical scenarios presents a significant challenge, $\textit{i.e.,}$ RL agents suffer from low sample efficiency in environments with variations. While various approaches have attempted to alleviate this issue by disentangled representation learning, these methods usually start learning from scratch without prior knowledge of the world. This paper, in contrast, tries to learn and understand underlying semantic variations from distracting videos via offline-to-online latent distillation and flexible disentanglement constraints. To enable effective cross-domain semantic knowledge transfer, we introduce an interpretable model-based RL framework, dubbed Disentangled World Models (DisWM). Specifically, we pretrain the action-free video prediction model offline with disentanglement regularization to extract semantic knowledge from distracting videos. The disentanglement capability of the pretrained model is then transferred to the world model through latent distillation. For finetuning in the online environment, we exploit the knowledge from the pretrained model and introduce a disentanglement constraint to the world model. During the adaptation phase, the incorporation of actions and rewards from online environment interactions enriches the diversity of the data, which in turn strengthens the disentangled representation learning. Experimental results validate the superiority of our approach on various benchmarks.